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NS. 


EL 

项 目 主 页 
https://github.com/yidao620c/python3-cookbook 
译 者 的 话 


人 生 否 短 ， 我 用 Python! 





译 者 一 直 坚 持 使 用 Python3， 因 为 它 代 表 了 Python 的 未 来 。 虽 然 向 后 兼容 是 它 的 硬 伤 ， 但 
是 这 个 局 面 迟 早 会 改变 的 ， 而且 Python3 的 未 来 需要 每 个 人 的 帮助 和 支持 。 目前 市 面 上 
的 教程 书籍 ， 网 上 的 手册 大 部 分 基本 都 是 2.x 系 列 的， 专门 基于 3.x 系 列 的 书籍 少 的 可 怜 。 











最 近 看 到 一 本 《Python Cookbook》3rd Edition， 完 全 基于 Python3， 写 的 也 很 不 错 。 为 
了 Python3 的 普及 ， 我 也 不 自 量力 ， 想 做 点 什么 事情 。 于 是 乎 ， 就 有 了 翻译 这 本 书 的 冲动 
了 ! 这 不 是 一 项 轻松 的 工作 ， 却 是 一 件 值得 做 的 工作 : 不 仅 方便 了 别人 ， 而 且 对 自己 翻 
译 能 力也 是 一 种 锻炼 和 提升 。 








ae eR OR AINE ot, Arie. (ASCH FIBA, ERA ht di ae 
意 不 当 的 地 方 。 如 果 译 文中 有 什么 错漏 的 地 方 请 大 家 见 访 ， 也 欢迎 大 家 随时 指正 ; 
yidao620@gmail.com 





作者 的 话 


自从 2008 年 以 来 ，Python3 横 空 出 世 并 慢 慢 进化 。Python3 的 流行 一 直 被 认为 需要 很 长 一 
段 时 间 。 事实 上 ， 到 我 写 这 本 书 的 2013 年 ， 绝 大 部 分 的 Python 程序 员 仍 然 在 生产 环境 中 
使 用 的 是 版 本 2 系列 ， 最 主要 是 因为 Python3 不 向 后 兼容 。 训 无 疑问 ， 对 于 工作 在 遗留 代 
码 上 的 每 个 程序 员 来 讲 ， 向 后 兼容 是 不 得 不 考虑 的 问题 。 但 是 放眼 未 来 ， 你 就 会 发 现 
Python3 给 你 带 来 不 一 样 的 惊喜 。 











正如 Python3 代 表 未 来 一 样 ， 新 的 《Python Cookbook》 版 本 相 比 较 之 前 的 版 本 有 了 一 个 
全 新 的 改变 。 最 重要 的 是 ， 这 个 意味 着 本 书 是 一 本 非常 前 沿 的 参考 书 。 书 中 所 有 代码 都 

是 在 Python3.3 版 本 下 面 编写 和 测试 的 ， 并 没有 考虑 之 前 老 版 本 的 兼容 性 ， 也 没有 标注 旧 
版 本 下 的 解决 方案 。 这 样子 可 能 会 有 争议 ， 但 是 我 们 最 终 的 目的 是 写 一 本 完全 基于 最 新 

最 先进 工具 和 语言 的 书籍 。 和 希望 这 本 书 能 成 为 在 Python3 下 编码 和 想 升 级 之 前 遗留 代码 的 
程序 员 的 优秀 教程 。 



































毫 无 疑问 ， 编 写 一 本 这 样 的 书 会 冒 一 定 的 编辑 风险 。 如 果 在 网 上 搜索 Python 教程 的 话 ， 
会 搜 到 很 多 很 多 。 比如 ActiveState's Python recipes 或 者 Stack Overflow， 但 是 绝 大 部 分 都 
已 经 是 过 时 的 了 。 这 些 教程 除了 是 基于 Python2 编 写 之 外 ， 可 能 还 有 很 多 解决 方案 在 不 同 
的 版 本 之 间 是 不 一 样 的 (比如 2.3 和 2.4 版 本 )。 另外 ， 它 们 还 会 经 常 使 用 一 些 过 时 的 技术 ， 
这 些 已 经 内 置 到 Python3.3 里 面 去 了 。 寻 找 完全 基于 Python3 的 教程 真 的 难 上 加 难 啊 。 














这 本 书 的 所 有 主题 都 是 基于 已 经 存在 的 代码 和 技术 ， 而 不 是 专门 去 寻找 Python3 特 有 的 教 
程 。 在 原 有 代码 基础 上 ， 我 们 完全 使 用 最 新 的 Python 技术 去 改造 。 所 以 ， 任 何 想 使 用 最 
新 技术 编写 代码 的 程序 员 ， 都 可 以 将 本 书 当做 一 本 很 好 的 参考 书籍 。 





在 讨论 的 主题 选择 方面 ， 我 们 不 可 能 圳 括 Python 领域 所 有 的 东西 。 因 此 ， 我 们 优先 选择 
了 Python 语言 核心 部 分 ， 以 及 一 些 在 开发 中 常见 的 问题 和 任务 。 另外 ， 这 里 讨论 的 很 多 
技术 都 是 Python 3 最 新 才 出 现 的 ， 所 以 如 果 工 作 在 Python 老 版 本 下 ， 即便 是 最 有 经 验 的 
程序 员 可 能 之 前 也 没 见 过 这 些 东 西 。 另外， 这 些 示 例 程序 也 会 偏向 于 展示 一 些 有 用 的 编 
程 技术 (比如 设计 模式 )， 而 不 是 仅仅 定位 在 一 些 具 体 的 问题 上 。 尽 管 也 提 及 到 了 有 一 些 第 
三 方 包 ， 但 是 本 书 主要 定位 在 Python 语言 核心 和 标准 库 。 


























这 本 书 适合 谁 


这 本 书 的 目标 读者 是 那些 想 深 入 理解 Python 语言 机 制 和 最 新 编程 技能 的 资深 程序 员 。 很 
多 讨论 都 是 标准 库 ， 框 架 和 应 用 程序 使 用 到 的 高 级 技术 。 本 书 所 有 示例 均 假设 读者 已 经 
有 了 一 定 的 编程 背景 并 且 可 以 很 容易 的 读 懂 相 关 主 题 (比如 基本 的 计算 机 科学 知识 ， 数 据 



































结构 知识 ， 算 法 复杂 度 ， 系 统 编程 ， 并 行 ，C 语 言 编程 等 )。 另外 ， 每 个 示例 都 只 是 一 个 
入 门 指导 ， 如 果 读 者 想 深 入 研究 ， 震 要 上 自己 去 查阅 更 多 资料 。 因此 ， 我 们 假定 读者 可 以 
很 熟练 的 使 用 搜索 引擎 以 及 知道 怎样 查询 在 线 的 Python 文档 。 











这 本 书 不 适合 Python 的 初学 者 。 事 实 上 ， 本 书 已 经 假定 了 读者 已 经 有 了 一 定 的 Python 基 
础 ， 看 完 过 几 本 入 门 书籍 。 本 书 也 不 是 那 种 快速 参考 手册 (可 以 很 快 的 查询 某 个 模块 下 的 
某 个 函数 )。 本 书 则 在 聚焦 几 个 最 重要 的 主题 ， 演 示 几 种 可 能 的 解决 方案， 作为 一 个 跳 
板 ， 你 可 以 经 此 进入 一 些 更 高 级 的 主题 ， 这 些 可 以 在 网 上 或 者 参考 手册 中 找到 。 


本 书 示例 代码 


本 书 几乎 所 有 源 代 码 均 可 以 在 http://github.com/dabeaz/python-cookbook 上 面 找到 。 作 
者 欢迎 各 位 修正 bug， 改 进 代码 和 评论 。 


本 书 就 是 帮助 你 完成 你 的 工作 。 一 般 来 讲 ， 只 要 在 本 书 上 面 的 实例 代码 ， 你 都 可 以 随时 
拿 过 去 在 你 的 源码 和 文档 中 使 用 。 你 不 需要 向 我 们 申请 许可 ， 除非 你 抄袭 的 太 过 分 了 。 
比如 说 复制 几 个 代码 片段 去 完成 一 个 程序 是 不 需要 许可 的 ， 贩卖 或 者 分 发 实例 代码 的 光 
盘 也 不 需要 许可 ， 引 用 本 书 和 实例 代码 去 网 上 回答 一 个 问题 也 不 需要 许可 。 但 是 ， 合 并 
大 量 的 代码 带 你 的 正式 产品 或 文档 中 去 必须 得 到 我 们 的 许可 。 




















我 们 不 会 要 求 你 添加 代码 的 出 处 ， 包 括 标 题 ， 作 者 ， 出 版 社 ，ISBN。 比如 : Python 
Cookbook, 3rd edition, by David Beazley and Brian K. Jones (O’Reilly). Copyright 2013 
David Beazley and Brian Jones, 978-1-449-34037-7. 但 是 如 果 你 这 么 做 了 ， 我 们 会 很 感激 
的 。 


联系 我 们 
请 将 关于 本 书 的 评论 和 问题 发 送 给 出 版 社 : 


O'Reilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 95472 

800-998-9938 (in the United States or Canada) 
707-829-0515 (international or local) 
707-829-0104 (fax) 


本 书 网 站 : http://oreil.ly/python_cookbook 3e ， 上 面 有 勘误 表 ， 示 例 和 一 些 其 他 信息 。 


如 条 想 要 评论 或 者 是 问 一 下 本 书 技术 方面 的 问题 ， 请 发 送 邮 件 至 : 


bookquestions@oreilly.com 


更 多 关于 我 们 的 书籍 ， 讨 论 会 ， 新 闻 ， 请 访问 我 们 的 网 站 : http://www.oreilly.com 


在 Facebook 上 查找 我 们 : http://facebook.com/oreilly 

在 Twitter 上 关注 我 们 : http://twitter.com/oreillymedia 

在 YouTube 上 观看 我 们 : http://www.youtube.com/oreillymedia 
感谢 


我 们 由 训 的 感谢 本 书 的 技术 审核 者 Jake Vanderplas, Robert Kern 和 Andrea Crotti 的 非常 
有 有 用 的 评论 和 建议 ， 还 有 Python 社区 的 帮助 和 鼓励 。 我 们 还 想 感 谢 上 一 个 版 本 的 编辑 
Jake Vanderplas, Robert Kern,and Andrea Crotti。 尽管 这 个 版 本 是 最 新 的 ， 但 是 前 一 个 版 
本 已 经 提供 了 一 个 感 兴趣 主题 和 解决 方案 的 框架 。 最 后 ， 最 最 重要 的 就 是 ， 我 们 要 感谢 
所 有 预览 版 本 的 读者 ， 他 们 的 评论 和 改进 意见 对 本 书 很 有 帮助 。 


第 一 章 : 数据 结构 和 算法 


Python 提供 了 大 量 的 内 置 数据 结构 ， 包 括 列表 ， 集 合 以 及 字典 。 大 多 数 情况 下 使 用 这 些 
数据 结构 是 很 简单 的 。 但 是 ， 我 们 也 会 经 常 碰 到 到 诸如 查询 ， 排 序 和 过 滤 等 等 这 些 普通 
存在 的 问题 。 因 此， 这 一 章 的 目的 就 是 讨论 这 些 比较 常见 的 问题 和 算法 。 另外， 我 们 也 
会 给 出 在 集合 模块 collections 当中 操作 这 些 数据 结构 的 方法 。 


















































Contents: 


1.1 解压 序列 赋值 给 多 个 变量 


问题 








现在 有 一 个 包含 N 个 元 素 的 元 组 或 者 是 序列 ， 怎 样 将 它 里 面 的 值 解 压 后 同时 赋值 给 N 个 变 


5 
量 ? 








解决 方案 





任何 的 序列 (或 者 是 可 迭代 对 象 ) 可 以 通过 一 个 简单 的 赋值 语句 解压 并 赋值 给 多 个 变量 。 唯 
一 的 前 提 就 是 变量 的 数量 必须 跟 序 列 元 素 的 数量 是 一 样 的 。 





代码 示例 : 


>>> p = (4; 5) 
>>> X, Y= op 
>>> x 


>>> 

>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 
>>> name, shares, price, date = data 

>>> name 

"ACME" 

>>> date 

(2012, 12, 21) 

>>> name, shares, price, (year, mon, day) = data 
>>> name 

' ACME ' 

>>> year 

2012 

>>> mon 

12 

>>> day 

21 

>>> 


如 果 变 量 个 数 和 序列 元 素 的 个 数 不 匹 配 ， 会 产生 一 个 异常 。 


代码 示例 : 


>> p = (4; 5) 

>>> X, Y, Z= OP 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: need more than 2 values to unpack 
>>> 





实际 上 ， 这 种 解压 赋值 可 以 用 在 任何 可 和 迭代 对 象 上 面 ， 而 不 仅仅 是 列表 或 者 元 组 。 包 括 
字符 串 ， 文 件 对 象 ， 迭 代 器 和 生成 器 。 


代码 示例 : 


>>> s = 'Hello' 

>>> a, b, c, d, @ =5 
>>> a 

He 

>>> b 

ia? 

>>> e 

igi 

>>> 


AMR, MERERI RS BAA. X TRPE Python H tA se HRR 
的 语法 。 ERTER EEREN SNR TAHA ART T . 





代码 示例 : 


>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 
>>> _, shares, price, _ = data 

>>> shares 

50 

>>> price 

91.1 

>>> 


你 必须 保证 你 选用 的 那些 占 位 变量 名 在 其 他 地 方 没 被 使 用 到 。 





1.2 解压 可 友 代 对 象 赋值 给 多 个 变量 
问题 


如 果 一 个 可 迭代 对 象 的 元 素 个 数 超过 变量 个 数 时 ， 会 抛 出 一 个 valueError 。 那么 怎样 才 
能 从 这 个 可 和 迭 代 对 象 中 解压 出 N 个 元 素 出 来 ? 


解决 方案 





Python 的 星 号 表达 式 可 以 用 来 解决 这 个 问题 。 比 如 ， 你 在 学 习 一 门 课程 ， 在 学 期 末 的 时 
候 ， A OA 
个 分 数 ， 你 可 能 就 直接 去 简单 的 手动 赋值 ， 但 如 果 有 24 个 呢 ? 这 时 候 星 号 表达 式 就 派 上 
用 场 了 : 














def drop_first_last(grades): 
first, *middle, last = grades 
return avg(middle) 











另外 一 种 情况 ， 假 设 你 现在 有 一 些 用 户 的 记录 列表 ， 每 条 记录 包含 一 个 名 字 、 邮 件 ， 接 着 
就 是 不 确定 数量 的 电话 号 码 。 你 可 以 像 下 面 这 样 分 解 这些 记 录 : 











>>> record = ('Dave', ‘dave@example.com', '773-555-1212', '847-555-1212') 
>>> name, email, *phone_numbers = record 

>>> name 

"Dave 

>>> email 

"dave@example.com' 

>>> phone_numbers 

['773-555-1212', '847-555-1212'] 

>>> 


值得 注意 的 是 上 面 解压 出 的 phone_numbers 变量 永远 都 是 列表 类 型 ， 不 管 解压 的 电话 号 码 
数量 是 多 少 (包括 0 个 )。 所以， 任何 使 用 到 phone_numbers 变量 的 代码 就 不 需要 做 多 余 的 
类 型 检查 去 确认 它 是 否 是 列表 类 型 了 。 





星 号 表达 式 也 能 用 在 列表 的 开始 部 分 。 比 如 ， 你 有 一 个 公司 前 8 个 月 销售 数据 的 序列 ， 但 
是 你 想 看 下 最 近 一 个 月 数据 和 前 面 7 个 月 的 平均 值 的 对 比 。 你 可 以 这 样 做 : 





*trailing qtrs, current_qtr = sales_record 
trailing avg = sum(trailing qtrs) / len(trailing qtrs) 
return avg comparison(trailing avg, current_qtr) 


下 面 是 在 Python 解 释 器 中 执行 的 结 


>>> *trailing, current = [10, 8, 7, 1, 9, 5, 10, 3] 
>>> trailing 

[10, 8, 7, 1, 9, 5, 10] 

>>> current 

3 


讨论 


SD RELIES AAP as TTS E TA fs AN E PE Bk PBB RY OT ATT CTP AY 
通常 ， 这 些 可 和 迭代 对 象 的 元 素 结构 有 确定 的 规则 《比如 第 1 个 元 素 后 面 都 是 电话 号 码 ) ， 
SRILA A RT MRE Da HAS 文 些 规则 来 解压 出 元 素来 。 而 不 是 通过 一 些 比 
较 复 杂 的 手段 去 获取 这 些 关 联 的 的 元 素 值 。 
































值得 注意 的 是 ， 星 号 表达 式 在 友 代 元 素 为 可 变 长 元 组 的 序列 时 是 很 有 用 的 。 比 如 ， 下 面 
是 一 个 带 有 标签 的 元 组 序列 : 








records = [ 
(“Foos 1; 2)5 
('bar', ‘hello'), 
("#00" ; 35 4); 

] 


def do_foo(x, y): 
print('foo', x, y) 


def do_bar(s): 
print('bar', s) 


for tag, *args in records: 
if tag == "foo": 
do_foo(*args) 
elif tag == ‘bar’: 
do_bar(*args) 





号 解压 语法 在 字符 串 操 作 的 时 候 也 会 很 有 用 ， 比 如 字符 串 的 分 割 。 


代码 示例 : 


>>> line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false' 
>>> uname, *fields, homedir, sh = line.split(':') 

>>> uname 

“nobody ' 

>>> homedir 

"/var/empty' 

>>> sh 

"/usr/bin/false' 

>>> 





ae 你 想 解 压 一 些 元 素 后 丢弃 它们 ， 你 不 能 简单 就 使 用 * ， 但 是 你 可 以 使 用 一 
通 的 废弃 名 称 ， 比如 _| 或 者 |ign |。 


代码 示例 : 


>>> record = ('ACME', 50, 123.45, (12, 18, 2012)) 
>>> name, *_, (*_, year) = record 

>>> name 

"ACME" 

>>> year 

2012 

>>> 





























在 很 多 函数 式 语 言 中 ， 星 号 解压 语法 跟 列 表 处 理 有 许多 相似 之 处 。 比 如 ， 如 果 你 有 一 个 列 
表 ， 你 可 以 很 容易 的 将 它 分 割 成 前 后 两 部 分 : 





>>> items = [1, 10, 7, 4, 5, 9] 
>>> head, *tail = items 

>>> head 

1 

>>> tail 

[10, 7, 4, 5, 9] 

>>> 





如 果 你 够 聪明 的 话 ， 还 能 用 这 种 分 割 语法 去 巧妙 的 实现 递归 算法 。 比 如 : 


>>> def sum(items): 
. head, *tail = items 
. return head + sum(tail) if tail else head 


>>> sum(items) 
36 
>>> 











然后 ， 由 于 语言 层面 的 限制 ， 递 归并 不 是 Python 擅长 的 。 因 此 ， 最 后 那个 递归 演示 仅仅 
是 个 好 奇 的 探索 罢了 ， 对 这 个 不 要 太 认 真 了 。 








1.3 保留 最 后 NN 个 元 素 


问题 





在 达 代 操作 或 者 其 他 操作 的 时 候 ， 怎 样 只 保留 最 后 有 限 几 个 元 素 的 历史 记录 ? 





保留 有 限 历 史记 录 正 是 collections.deque 大 显 身手 的 时 候 。 比 如 ， 下 面 的 代码 在 多 行 上 
面 做 简单 的 文本 匹配 ， 并 只 返回 在 前 N 行 中 匹配 成 功 的 行 : 


from collections import deque 


def search(lines, pattern, history=5): 
previous lines = deque(maxlen=history) 
for li in lines: 
if pattern in li: 
yield li, previous_lines 
previous_lines.append(1li) 


# Example use ona file 
if name == '__main_' 
with open(r'../../cookbook/somefile.txt') as f: 
for line, prevlines in search(f, ‘python’, 5): 
for pline in prevlines: 
print(pline, end='') 

print(line, end='') 
print('-' * 20) 


我 们 在 写 查 询 元 素 的 代码 时 ， 通 常会 使 用 包含 yield 表达 式 的 生成 器 函数 ， 也 就 是 我 们 
上 面 示例 代码 中 的 那样 。 这 样 可 以 将 搜索 过 程 代码 和 使 用 搜索 结果 代码 解 而 。 如 果 你 还 
不 清楚 什么 是 生成 器 ， 请 参看 4.3。 





使 用 deque(maxlen=N) 构造 函数 会 新 建 一 个 固定 大 小 的 队列 。 当 新 的 元 素 加 入 并 且 这 个 队 
列 已 满 的 时 候 ， 最 老 的 元 素 会 自动 被 移 除 掉 。 








代码 示例 : 


>>> q = deque(maxlen=3) 
>>> q.append(1) 

>>> q.append(2) 

>>> q.-append(3) 

>> q 

deque([1, 2, 3], maxlen=3) 
>>> q.append(4) 

>>> q 

deque([2, 3, 4], maxlen=3) 
>>> q.append(5) 

>>> q 

deque([3, 4, 5], maxlen=3) 


尽管 你 也 可 以 手动 在 一 个 列表 上 实现 这 一 的 操作 (比如 增加 、 删 除 等 等 )。 但 是 这 里 的 队列 
方案 会 更 加 优雅 并 且 运 行 得 更 快 些 。 


更 一 般 的 ， deque 类 可 以 被 用 在 任何 你 只 需要 一 个 简单 队列 数据 结构 的 场合 。 如 果 你 不 
设置 最 大 队列 大 小 ， 那 么 就 会 得 到 一 个 无 限 大 小 队列 ， 你 可 以 在 队列 的 两 端 执行 添加 和 弹 
出 元 素 的 操作 。 


代码 示例 : 


>>> q = deque() 

>>> q.append(1) 

>>> q.append(2) 

>>> q.-append(3) 

>>> q 

deque([1, 2, 3]) 
>>> q.appendleft(4) 
>>> q 

deque([4, 1, 2, 3]) 
>>> q.pop() 

3 

>>> q 

deque([4, 1, 2]) 
>>> q.popleft() 

4 


在 队列 两 端 插 入 或 删除 元 素 时 间 复 杂 度 都 是 oa) ， 而 在 列表 的 开头 插入 或 删除 元 素 的 时 
间 复 杂 度 为 o(N) o 





1.4 但 找 最 大 或 最 小 的 NN 个 元 素 


问题 





怎样 从 一 个 集合 中 获得 最 大 或 者 最 小 的 N 个 元 素 列表 ? 


heapq 模 块 有 两 个 函数 : nlargest() 和 nsmallest() 可 以 完美 解决 这 个 问题 。 


import heapq 

nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
print(heapq.nlargest(3, nums)) # Prints [42, 37, 23] 
print(heapq.nsmallest(3, nums)) # Prints [-4, 1, 2] 


两 个 函数 都 能 接受 一 个 关键 字 参 数 ， 用 于 更 复杂 的 数据 结构 中 : 


portfolio = [ 
{'name': 'IBM', 'shares': 100, 'price': 91.1}, 
{'name': 'AAPL', 'shares': 50, ‘price’: 543.22}, 
{'name': 'FB', 'shares': 200, 'price': 21.09}, 
{'name': 'HPQ', ‘shares': 35, 'price': 31.75}, 
{'name': 'YHOO', '‘shares': 45, 'price': 16.35}, 
{'name': 'ACME', 'shares': 75, ‘price’: 115.65} 
] 
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price']) 
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price']) 








译 者 注 : 上 面 代 码 在 对 每 个 元 素 进 行 对 比 的 时 候 ， 会 以 price 的 值 进行 比较 。 








如 果 你 想 在 一 个 集合 中 查找 最 小 或 最 大 的 N 个 元素 ， 并 且 N 小 于 集合 元 素数 量 ， 那 么 这 些 
函数 提供 了 很 好 的 性 能 。 因 为 在 底层 实现 里 面 ， 首 先 会 先 将 集合 数据 进行 堆 排 序 后 放 入 
一 个 列表 中 : 








>>> nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
>>> import heapq 

>>> heapq.heapify(nums ) 

>>> nums 

[45 25. 1; 23; 75 2, 18, 23,42; 37; 8] 

>>> 








堆 数 据 结构 最 重要 的 特征 是 eapi6j 永远 是 最 小 的 元 素 。 并 且 剩 余 的 元 素 可 以 很 容易 的 
通过 调用 heapq.heappop() | 方法 得 到 ， 该 方法 会 先 将 第 一 个 元 素 弹出 来 ， 然 后 用 下 一 个 最 
小 的 元 素来 取代 被 弹出 元 素 ( 这 种 操作 时 间 复杂 度 仅仅 是 O(N)，N 是 堆 大 小 )。 比如 ， 如 果 
想 要 查找 最 小 的 3 个 元 素 ， 你 可 以 这 样 做 ; 


>>> heapq.heappop(nums) 
-4 

>>> heapq.heappop(nums) 
1 

>>> heapq.heappop(nums) 
2 


当 要 查找 的 元 素 个 数 相对 比较 小 的 时 候 ， 函 数 nlargest() 和 nsmallest() 是 很 合适 的 。 

如 果 你 仅仅 想 查 找 唯 一 的 最 小 或 最 大 (N=1) 的 元 素 的 话 ， 那 么 使 用 min() 和 max() 函 数 会 更 

快 些 。 类 似 的 ， 如 果 N 的 大 小 和 集合 大 小 接近 的 时 候 ， 通 常 先 排序 这 个 集合 然后 再 使 用 切 
片 操作 会 更 快 点 ( sorted(items)[:N] 或 者 是 sorted(items)[-N:] Ja 需要 在 正确 场合 使 用 
函数 nlargest() 和 nsmallest() 才 能 发 挥 它们 的 优势 (如 果 N 快 接近 集合 大 小 了 ， 那 么 使 用 排 
序 操作 会 更 好 些 )。 








尽管 你 没有 必要 一 定 使 用 这 里 的 方法 ， 但 是 堆 数 据 结构 的 实现 是 一 个 很 有 趣 并 且 值 得 你 深 
入 学 习 的 东西 。 基 本 上 只 要 是 数据 结构 和 算法 书籍 里 面 都 会 有 提 及 到 。 heapa 模块 的 官 
方 文 档 里 面 也 详细 的 介绍 了 堆 数据 结构 底层 的 实现 细节 。 





1.5 实现 一 个 优先 级 队列 
问题 


怎样 实现 一 个 按 优先 级 排序 的 队列 ? 并 且 在 这 个 队列 上 面 每 次 pop 操 作 总 是 返回 优先 级 最 
高 的 那个 元 素 


解决 方案 
下 面 的 类 利用 heap 模块 实现 了 一 个 简单 的 优先 级 队列 : 


import heapq 


class PriorityQueue: 
def __init__(self): 
self. queue = [] 
self._index = 6 


def push(self, item, priority): 
heapq.heappush(self._ queue, (-priority, self. index, item)) 


self._index += 1 


def pop(self): 
return heapq.heappop(self._queue)[-1] 


下 面 是 它 的 使 用 方式 : 


>>> class Item: 

def __init__(self, name): 
self.name = name 

def _repr__(self): 


return ‘Item({!r})'.format(self.name) 


q = PriorityQueue() 
q-push(Item('foo'), 1) 

>>> q.push(Item('bar'), 5) 
q-push(Item('spam'), 4) 
q-push(Item('grok'), 1) 

>>> q.pop() 

Item('bar' ) 

>>> q.pop() 

Item('spam' ) 

>>> q.pop() 

Item('foo' ) 

>>> q.pop() 

Item(' grok") 





仔细 观察 可 以 发 现 ， 第 一 个 pop() 操作 返回 优先 级 最 高 的 元 素 。 另外 注意 到 如 果 两 个 有 
着 相同 优先 级 的 元 素 ( foo 和 grok )，pop 操 作 按照 它们 被 插入 到 队列 的 顺序 返回 的 。 


讨论 


这 一 小 节 我 们 主要 关注 heapq 模块 的 使 用 。 函数 heapq.heappush() 和 heapq.heappop() 
分 别 在 队列 queue 上 插入 和 删除 第 一 个 元 素 ， ee 人 元 素 拥 有 最 小 
优先 级 (1.4 节 已 经 讨论 过 这 个 问题 )。 heappop() 函数 总 回 " 最 小 的 "的 元 素 ， 这 就 是 保 
证 队列 pop 操 作 返 回 正 确 元 素 的 关键 。 另外 ， ee ee )， 其 
中 N 是 堆 的 大 小 ， 因 此 就 算是 N 很 大 的 时 候 它 们 运行 速度 也 依旧 很 快 。 





在 上 面 代码 中 ， 队 列 包含 了 一 个 (-priority, index, item) 的 元 组 。 优 先 级 为 负数 的 目的 
是 使 得 元 素 按照 优先 级 从 高 到 低 排 序 。 这 个 跟 普 通 的 按 优先 级 从 低 到 高 排序 的 堆 排 序 恰 
巧 相反 。 


index 变量 的 作用 是 保证 同等 优先 级 元 素 的 正确 排序 。 通过 保存 一 个 不 断 增 加 的 index 
下 标 变量 ， 可 以 确保 元 素 安装 它们 插入 的 顺序 排序 。 h index 变量 也 在 相同 优先 级 
元 素 比 较 的 时 候 起 到 重要 作用 。 








为 了 阐明 这 些 ， 先 假定 Item 实 例 是 不 支持 排序 的 : 


>>> a = Item('foo') 

>>> b = Item('bar') 

>>> a <b 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: unorderable types: Item() < Item() 
>>> 


如 果 你 使 用 元 组 (priority, item) ， 只 要 两 个 元 素 的 优先 级 不 同 就 能 比较 。 但 是 如 果 两 
个 元 素 优先 级 一 样 的 话 ， 那 么 比较 操作 就 会 跟 之 前 一 样 出 错 : 





>>> a = (1, Item('foo')) 

>>> b = (5, Item('bar')) 

>>> a <b 

True 

>>> c = (1, Item('grok')) 

>>> a<c 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: unorderable types: Item() < Item() 
>>> 


通过 引入 另外 的 index 变量 组 成 三 元 组 (priority, index, item) ， 就 能 很 好 的 避免 上 面 
的 错误 ， 因为 不 可 能 有 两 个 元 素 有 相同 的 index 值 。Python 在 做 元 组 比较 时 候 ， 如 果 前 
面 的 比较 以 及 可 以 确定 结果 了 ， 后 面 的 比较 操作 就 不 会 发 生 了 : 








>>> a = (1，6，Item('foo')) 
>>> b = (5, 1, Item('bar')) 
>>> c = (1, 2, Item('grok')) 
>>> a <b 

True 

>>> acc 

True 

>>> 











如 果 你 想 在 多 个 线程 中 使 用 同一 个 队列 ， 那 么 你 需要 增加 适当 的 锁 和 信号 量 机 制 。 可 以 
查看 12.3 小 节 的 例子 演示 是 怎样 做 的 。 























heapq 模块 的 官方 文档 有 更 详细 的 例子 程序 以 及 对 于 堆 理 论 及 其 实现 的 详细 说 明 。 


1.6 字典 中 的 键 映 冉 多 个 值 


问题 


怎样 实现 一 个 键 对 应 多 个 值 的 字典 (也 叫 multidict )? 





一 个 字典 就 是 一 个 键 对 应 一 个 单 值 的 映射 。 如 果 你 想 要 一 个 键 映 射 多 个 值 ， 那 么 你 就 需要 
将 这 多 个 值 放 到 另外 的 容器 中 ， 比 如 列表 或 者 集合 里 面 。 比 如 ， 你 可 以 像 下 面 这 样 构造 
这 样 的 字典 : 





d=f{ 
Yer 2 EL 25. 3d, 
"ib  s [455] 

} 

e= { 
"a x {fy 2, - Shy 
"b' : {4, 5} 

} 





选择 使 用 列表 还 是 集合 取决 于 你 的 实际 需求 。 如 果 你 想 保持 元 素 的 插入 顺序 就 应 该 使 用 列 
表 ， 如果 想 去 掉 重 复元 素 就 使 用 集合 〈 并 且 不 关心 元 素 的 顺序 问题 ) 。 





你 可 以 很 方便 的 使 用 collections 模块 中 的 defaultdict 来 构造 这 样 的 字典 。 
defaultdict 的 一 个 特征 是 它 会 自动 初始 化 每 个 key 刚 开始 对 应 的 值 ， 所 以 你 只 需要 关 
注 添加 元 素 操作 了 。 比 如 : 





from collections import defaultdict 


d = defaultdict(list) 
d['a'].append(1) 
d['a'].append(2) 
d['b'].append(4) 


d = defaultdict(set) 
d['a'].add(1) 
d['a'].add(2) 
d['b'].add(4) 


需要 注意 的 是 ， derauitdict 会 自动 为 将 要 访问 的 键 (就 算 目 前 字典 中 并 不 存在 这 样 的 键 |) 
创建 映射 实体 。 如 果 你 并 不 需要 这 样 的 特性 ， 你 可 以 在 一 个 普通 的 字典 上 使 用 
setdefault() 方法 来 代替 。 比 如 ; 


d = {} # A regular dictionary 

d.setdefault('a', []).append(1) 
d.setdefault('a', []).append(2) 
d.setdefault('b', []).append(4) 


但 是 很 多 程序 员 觉 得 setdefault() 用 起 来 有 点 别扭 。 因 为 每 次 调用 都 得 创建 一 个 新 的 初 
始 值 的 实例 (例子 程序 中 的 空 列表 [])。 











讨论 





一 般 来 讲 ， 创 建 一 个 多 值 映射 字典 是 很 简单 的 。 但 是 ， 如 果 你 选择 自己 实现 的 话 ， 那 么 对 
于 值 的 初始 化 可 能 会 有 点 麻烦 ， 你 可 能 会 像 下 面 这 样 来 实现 : 





d = {} 
for key, value in pairs: 
if key not in d: 
d{key] = [] 
d[key].append(value) 


如 果 使 用 defaultdict 的 话 代 码 就 更 加 简洁 了 : 


d = defaultdict(list) 
for key, value in pairs: 
d[key].append(value) 














这 一 小 节 所 讨论 的 问题 跟 数据 处 理 中 的 记录 归 类 问题 有 大 的 关联 。 可 以 参考 1.15 小 市 的 例 
T- 





1.7 字典 排序 
问题 





你 想 创 建 一 个 字典 ， 并 且 在 迭代 或 序列 化 这 个 字典 的 时 候 能 够 控制 元 素 的 顺序 。 





为 了 能 控制 一 个 字典 中 元 素 的 顺序 ， 你 可 以 使 用 collections 模块 中 的 ordereddict 类 。 
在 迭代 操作 的 时 候 它 会 保持 元 素 被 插入 时 的 顺序 ， 示 例如 下 : 


from collections import OrderedDict 
def ordered_dict(): 
d = OrderedDict() 
d['foo'] = 1 
d['bar'] = 2 
d['spam'] = 3 
d['grok'] = 4 
# Outputs "foo 1", "bar 2", "spam 3", "grok 4" 
for key in d: 
print(key, d[key]) 


当 你 想 要 构建 一 个 将 来 需要 序列 化 或 编码 成 其 他 格式 的 映射 的 时 候 ， orderedpict 是 非常 
有 用 的 。 比如， 你 想 精确 控制 以 JSON 编 码 后 字段 的 顺序 ， 你 可 以 先 使 用 orderedpict 来 
构建 这 样 的 数据 : 





>>> import json 

>>> json.dumps(d) 

"{"foo": 1, "bar": 2, "spam": 3, "grok": 4}' 
>>> 


讨论 





orderedpict 内 部 维护 着 一 个 根据 键 插入 顺序 排序 的 双向 链表 。 每 次 当 一 个 新 的 元 素 插入 
进来 的 时 候 ， 它 会 被 放 到 链表 的 尾部 。 对 于 一 个 已 经 存在 的 键 的 重复 赋值 不 会 改变 键 的 
顺序 。 











需要 注意 的 是 ， 一 个 orderedpict 的 大 小 是 一 个 普通 字典 的 两 倍 ， 因 为 它 内 部 维护 着 另外 
一 个 链表 。 所 以 如 果 你 要 构建 一 个 需要 大 量 orderedpict 实例 的 数据 结构 的 时 候 ( 比 如 读 
取 100,000 行 CSV 数 据 到 一 个 orderedpict 列表 中 去 )， 那 么 你 就 得 仔细 权衡 一 下 是 否 使 用 
OrderedDict 带 来 的 好 处 要 大 过 额外 内 存 消 耗 的 影响 。 


1.8 字典 的 运算 
问题 


怎样 在 数据 字典 中 执行 一 些 计算 操作 (比如 求 最 小 值 、 最 大 值 、 排 序 等 等 )? 





解决 方案 
考虑 下 面 的 股票 名 和 价格 映射 字典 : 


prices = { 
"ACME': 45.23, 
"AAPL': 612.78, 
"EBM"? (205.55, 
"HPQ': 37.20, 
"EB 2: 10:75 


为 了 对 字典 值 执行 计算 操作 ， 通 常 需要 使 用 zip() 函数 先 将 键 和 值 反 转 过 来 。 比 如， 下 
面 是 三 找 最 小 和 最 大 股票 价格 和 股票 值 的 代码 : 














min_price = min(zip(prices.values(), prices.keys())) 
# min_price is (10.75, 'FB') 

max_price = max(zip(prices.values(), prices.keys())) 
# max_price is (612.78, 'AAPL') 


类 似 的 ， 可 以 使 用 zip() 和 sorted) 函数 来 排列 字典 数据 : 


prices_sorted = sorted(zip(prices.values(), prices.keys())) 
# prices_sorted is [(10.75, 'FB'), (37.2, 'HPQ'), 

# (45.23, 'ACME'), (205.55, ‘IBM'), 

# (612.78, 'AAPL')] 


执行 这 些 计算 的 时 候 ， 需 要 注意 的 是 zip() 函数 创建 的 是 一 个 只 能 访问 一 次 的 迭代 器 。 
比如 ， 下 面 的 代码 就 会 产生 错误 : 


prices_and_names = zip(prices.values(), prices.keys()) 
print(min(prices and names)) # OK 


print(max(prices_and_names)) # ValueError: max() arg is an empty sequence 


讨论 








如 果 你 在 一 个 字典 上 执行 普通 的 数学 运算 ， 你 会 发 现 它们 仅仅 作用 于 键 ， 而 不 是 值 。 比 
如 : 





min(prices) # Returns 'AAPL' 
max(prices) # Returns “TBM 


这 个 结果 并 不 是 你 想 要 的 ， 因 为 你 想 要 在 字典 的 值 集 合 上 执行 这 些 计 算 。 或 许 你 会 尝试 
着 使 用 字典 的 values() 方法 来 解决 这 个 问题 : 





min(prices.values()) # Returns 10.75 
max(prices.values()) # Returns 612.78 





不 幸 的 是 ， 通 常 这 个 结果 同样 也 不 是 你 想 要 的 。 你 可 能 还 想 要 知道 对 应 的 键 的 信息 (比如 
那 种 股票 价格 是 最 低 的 ? )。 





你 可 以 在 min) 和 max() 函数 中 提供 key 函数 参数 来 获取 最 小 值 或 最 大 值 对 应 的 键 的 信 
息 。 比 如 ; 








min(prices, key=lambda k: prices[k]) # Returns “FB 
max(prices, key=lambda k: prices[k]) # Returns 'AAPL' 


但 是 ， 如 果 还 想 要 得 到 最 小 值 ， 你 又 得 执行 一 次 查找 操作 。 比 如 : 





min_value = prices[min(prices, key=lambda k: prices[k])] 


Lp gee a ag ne te 述 问题 。 当 比较 
两 个 元 组 的 时 候 ， 值 会 先进 行 比较 ， 然 后 才 是 键 。 这样 的 话 你 就 能 通过 一 条 简单 的 语句 
就 能 很 轻松 的 实现 在 字典 上 的 求 最 值 和 排序 操作 了 。 








需要 注意 的 是 在 计算 操作 中 使 用 到 了 ( 值 ， 键 ) 对 。 当 多 个 实体 拥有 相同 的 值 的 时 候 ， 键 会 
决定 返回 结果 。 比如 ， 在 执行 mino 和 max() 操作 的 时 候 ， 如 果 恰 巧 最 小 或 最 大 值 有 重 
复 的 ， 那 么 拥有 最 小 或 最 大 键 的 实体 会 返回 

















>> 


Vv 


prices = { 'AAA' : 45.23, 'ZZZ': 45.23 } 
>>> min(zip(prices.values(), prices.keys())) 
(45.23, ‘AAA') 

>>> max(zip(prices.values(), prices.keys())) 
(45.23, 'ZZZ') 

>>> 


1.9 Æ $k Py SLAY HHT) 
问题 


怎样 在 两 个 字典 中 寻 寻 找 相同 点 (比如 相同 的 键 、 相 同 的 值 等 等 )? 





解决 方案 
考虑 下 面 两 个 字典 : 
aai 
"X 1, 
yo: 2, 
Zz 2 3 
} 
b= { 
w' : 10, 
x” 4 11, 
"y? 2 
} 


为 了 寻找 两 个 字典 的 相同 点 ， 可 以 简单 的 在 两 字典 的 keys() 或 者 items() 方法 返回 结 
上 执行 集合 操作 。 比 如 : 


Find keys in common 

-keys() & b.keys() # { 'x', ‘y' } 
Find keys in a that are not in b 
-keys() - b.keys() # { 'z' } 

Find (key,value) pairs in common 
items() & b.items() # { ('y', 2) } 


vu *+ © * YO 六 


这 些 操作 也 可 以 用 于 修改 或 者 过 滤 字 典 元 素 。 比 如， 假如 你 想 以 现 有 字典 构造 一 个 排除 
几 个 指定 键 的 新 字典 。 下面 利 用 字典 推导 来 实现 这 样 的 需求 : 





# Make a new dictionary with certain keys removed 
c = {key:a[key] for key in a.keys() - {'z', ‘w'}} 
# CE RS {'x': 1, ‘'y': 2} 


讨论 


一 个 字典 就 是 一 个 键 集合 与 值 集合 的 映射 和 关系。 字典 的 keyso 方法 返回 一 个 展现 键 集合 
的 键 视图 对 象 。 键 视图 的 一 个 很 少 被 了 解 的 特性 就 是 它们 也 支持 集合 操作 ， 比 如 集合 
并 、 交 、 差 运算 。 所 以 ， 如 果 你 想 对 集合 的 键 执行 一 些 普通 的 集合 操作 ， 可 以 直接 使 用 
键 视图 对 象 而 不 用 先 将 它们 转换 成 一 个 set。 





字典 的 items() 方法 返回 一 个 包含 ( 键 ， 值 ) 对 的 元 素 视 图 对 象 。 这 个 对 象 同样 也 支持 集合 
操作 ， 并 且 可 以 被 用 来 查找 两 个 字典 有 哪些 相同 的 键 值 对 。 





尽管 字典 的 values() 方法 也 是 类 似 ， 但 是 它 并 不 支持 这 里 介绍 的 集合 操作 。 某 种 程度 上 
是 因为 值 视图 不 能 保证 所 有 的 值 互 不 相同 ， 这 样 会 导致 条 些 集合 操作 会 出 现 问题 。 不 
过 ， 如 果 你 硬 要 在 值 上 面 执行 这 些 集 合 操 作 的 话 ， 你 可 以 先 将 值 集合 转换 成 set， 然 后 再 
执行 集合 运算 就 行 了 。 




















1.10 删除 序列 相同 元 素 并 保持 顺序 





问题 





怎样 在 一 个 序列 上 面 保持 元 素 顺序 的 同时 消除 重复 的 值 ? 


解决 方案 


如 果 序 列 上 的 值 都 是 hashable 类 型 ， 那 么 可 以 很 简单 的 利用 集合 或 者 生成 器 来 解决 这 个 
问题 。 比 如 : 





def dedupe(items): 
seen = set() 
for item in items: 
if item not in seen: 
yield item 
seen.add(item) 


下 面 是 使 用 上 述 函 数 的 例子 : 


>>> a = [1, 5, 2, 1, 9, 1, 5, 10] 
>>> list(dedupe(a)) 

[1, 5, 2, 9, 10] 

>>> 





这 个 方法 仅仅 在 序列 中 元 素 为 hashable 的 时 候 才 管用 。 如 果 你 想 消除 元 素 不 可 哈 希 ( 比 
如 dict 类 型 ) 的 序列 中 重复 元 素 的 话 ， 你 需要 将 上 述 代码 稍微 改变 一 下 ， 就 像 这 样 : 


def dedupe(items, key=None): 
seen = set() 
for item in items: 
val = item if key is None else key(item) 
if val not in seen: 
yield item 
seen.add(val) 


这 里 的 key 参 数 指定 了 一 个 函数 ， 将 序列 元 素 转换 成 hashable 类 型 。 下 面 是 它 的 用 法 示 
例 : 


> 9] 
>>> list(dedupe(a, key=lambda d: ap x" ], a y']))) 
[{'x': 1, 'y': 2}, {'x': 1, "y's 3}, {'x': 2, 'y': 4}] 


>>> list(dedupe(a, key=lambda d: d['x 1) 
[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}] 


>>> 


如 果 你 想 基 于 单个 字段 、 属 性 或 者 某 个 更 大 的 数据 结构 来 消除 重复 元 素 ， 第 二 种 方案 同样 
可 以 胜任 。 


讨论 





如 果 你 仅仅 就 是 想 消除 重复 元 素 ， 通 常 可 以 简单 的 构造 一 个 集合 。 比 如 : 


>>> a 
[1, 5, 2, 1, 9, 1, 5, 10] 
>>> set(a) 

{1, 2, 10, 5, 9} 

>>> 








然而 ， 这 种 方法 不 能 维护 元 素 的 顺序 ， 生 成 的 结果 中 的 元 素 位 置 被 打 乱 。 而 上 面 的 方法 可 
以 避免 这 种 情况 。 


























在 本 节 中 我 们 使 用 了 生成 右 函 数 让 我 们 的 函数 更 加 通用 ， 不 仅仅 是 局 限于 列表 处 理 。 比 
如 ， 如 果 如 果 你 想 读 取 一 个 文件 ， 消 除 重 复 行 ， 你 可 以 很 容易 像 这 样 做 : 








with open(somefile,'r') as f: 
for line in dedupe(f): 


上 述 key 函 数 参 数 模 仿 了 sorted() , min() 和 max() 等 内 置 函数 的 相似 功能 。 可 以 参考 
18 和 1.13 小 节 了 解 更 多 。 


1.11 命名 切片 


问题 











你 的 程序 已 经 出 现 一 大 堆 已 无 法 直 视 的 硬 编 码 切片 下 标 ， 然 后 你 想 清理 下 代码 。 

















假定 你 有 一 段 代码 要 从 一 个 记录 字符 串 中 几 个 固定 位 置 提取 出 特定 的 数据 字段 (比如 文件 
或 类 似 格 式 ): 


HHHHHH 0123456789012345678901234567890123456789012345678901234567890' 
rècord = “Seccwsiawaasasereaas TOO cagrena D2 E A EE T i 
cost = int(record[20:23]) * float(record[31:37]) 


与 其 那样 号， 为 什么 不 想 这 样 命名 切片 呢 : 


SHARES = slice(20, 23) 
PRICE = slice(31, 37) 
cost = int(record[SHARES]) * float(record[PRICE] ) 











第 二 种 版 本 中 ， 你 避免 了 大 量 无 法 理解 的 硬 编码 下 标 ， 使 得 你 的 代码 更 加 清晰 可 读 了 。 








讨论 


一 般 来 讲 ， 代 码 中 如 果 出 现 大 量 的 硬 编 码 下 标 值 会 使 得 可 读 性 和 可 维护 性 大 大 降低 。 比 
如 ， 如 果 你 回 过 来 看 看 一 年 前 你 写 的 代码 ， 你 会 摸 着 脑袋 想 那 时 候 自 己 到 底 想 干 嘛 啊 。 
这 里 的 解决 方案 是 一 个 很 简单 的 方法 让 你 更 加 清晰 的 表达 代码 到 底 要 做 什么 。 











内 置 的 slice() 函数 创建 了 一 个 切片 对 象 ， 可 以 被 用 在 任何 切片 允许 使 用 的 地 方 。 比 
如 : 


>>> items = [@, 1, 2, 3, 4, 5, 6] 
>>> a = slice(2, 4) 

>>> items[2:4] 

[2, 3] 

>>> items[a] 

[2, 3] 

>>> items[a] = [10,11] 
>>> items 

[@, 1, 10, 11, 4, 5, 6] 
>>> del items[a] 

>>> items 

[@, 1, 4, 5, 6] 


如 果 你 有 一 个 切片 对 象 S， 你 可 以 分 别 调用 它 的 s.start , s.stop , s.step 属性 来 获取 更 
多 的 信息 。 比 如 : 


>>> s = slice(5, 50, 2) 
>>> s.start 
>>> s.stop 


>>> s.step 


另外 ， 你 还 能 通过 调用 切片 的 indices(size) 方法 将 它 映射 到 一 个 确定 大 小 的 序列 上 ， 这 
个 方法 返回 一 个 三 元 组 (start, stop, step) ， 所 有 值 都 会 被 合适 的 缩小 以 满足 边界 限 
制 ， 从 而 使 用 的 时 候 避 免 出 现 IndexError 异常 。 比 如 : 





>>> s = 'HelloWorld' 

>>> a.indices(len(s)) 

(5, 10, 2) 

>>> for i in range(*a.indices(len(s))): 
。 print(s[i]) 


1.12 序列 中 出 现 次 数 最 多 的 元 素 


问题 


怎样 找 出 一 个 序列 中 出 现 次 数 最 多 的 元 素 呢 ? 


解决 方案 





collections.counter 类 就 是 专门 为 这 类 问题 而 设计 的 ， 它 甚至 有 一 个 有 用 的 
most_common() 方法 直接 给 了 你 答案 。 


为 了 演示 ， 先 假设 你 有 一 个 单词 列表 并 且 想 找 出 哪个 单词 出 现 频率 最 高 。 你 可 以 这 样 做 : 


words = [ 
‘look’, ‘into’, ‘my', ‘eyes’, ‘look’, ‘into', 'my', ‘eyes’, 
‘the’, ‘eyes', 'the', ‘eyes’, ‘'the', ‘eyes’, 'not', ‘around’, ‘the’, 
"eyes', "don't", ‘look’, ‘around’, ‘the', ‘eyes', ‘look’, ‘into’, 
"my', ‘eyes’, "you're", ‘under' 

] 

from collections import Counter 

word counts = Counter(words) 

# 出 现 频率 最 高 的 3 个 单词 

top_three = word_counts.most_common(3) 

print(top_three) 

# Outputs [('eyes', 8), ('the', 5), ('Look', 4)] 





讨论 


作为 输入 ， counter 对 象 可 以 接受 任意 的 hashable 序列 对 象 。 在 底层 实现 上 ， 一 个 
Counter 对 象 就 是 一 个 字典 ， 将 元 素 映 射 到 它 出 现 的 次 数 上 。 比 如 : 


>>> word_counts['not' ] 
1 

>>> word_counts[‘eyes'] 
8 

>>> 


如 果 你 想 手动 增加 计数 ， 可 以 简单 的 用 加 法 : 


>>> morewords = ['why','are','you','not','looking','in','my', 'eyes'] 
>>> for word in morewords: 
. word_counts[word] += 1 


>>> word _counts['eyes' ] 


或 者 你 可 以 使 用 update() 方法 : 


>>> word counts.update(morewords) 
>>> 





Counter 实例 一 个 鲜 为 人 知 的 特性 是 它们 可 以 很 容易 的 跟 数 学 运算 操作 相 结 合 。 比 如 : 


>>> a = Counter(words) 

>>> b = Counter(morewords) 

>>> a 

Counter({'eyes': 8, 'the': 5, ‘look': 4, ‘into': 3, 'my': 3, ‘around’: 2, 
"you're": 1, "don't": 1, ‘under’: 1, ‘not': 1}) 

>>> b 

Counter({'eyes': 1, ‘looking’: 1, ‘are’: 1, ‘in': 1, 'not': 1, ‘you': 1, 
'my': 1, 'why': 1}) 

>>> # Combine counts 

>>> c =atb 

>>>: Cc 

Counter({'eyes': 9, ‘the': 5, 'look': 4, 'my': 4, ‘into': 3, 'not': 2, 
"around': 2, "you're": 1, "don't": 1, “in”; 1, ‘why’: 1, 

‘looking’: 1, ‘are': 1, ‘under': 1, ‘you': 1}) 

>>> # Subtract counts 

>>> d=a-b 

>>> d 

Counter({'eyes': 7, ‘the': 5, ‘look': 4, ‘into': 3, 'my': 2, ‘around': 2, 
"you're": 1, "don't": 1, ‘under': 1}) 

>>> 








L 





FESE, Counter 对 象 在 几乎 所 有 需要 制 表 或 者 计数 数据 的 场合 是 非常 有 用 的 工具 
在 解决 这 类 问题 的 时 候 你 应 该 优先 选择 它 ， 而 不 是 手动 的 利用 字典 去 实现 。 





1.13 通过 菏 个 关键 字 排 序 一 个 字典 列表 


问题 














你 有 一 个 字典 列表 ， 你 想 根 据 某 个 或 某 几 个 字典 字段 来 排序 这 个 列表 。 


解决 方案 


通过 使 用 operator 模块 的 itemgetter 函数 ， 可 以 非常 容易 的 排序 这 样 的 数据 结构 。 假 


设 你 从 数据 库 中 检索 出 来 网 站 会 员 信息 列表 ， 并 且 以 下 列 的 数据 结构 返回 : 


rows = [ 
{'fname 
{' fname 
{' fname 
{'fname 
] 








"Brian', 'lname': 'Jones', ‘uid': 1003}, 
"David', 'lname': 'Beazley', ‘uid': 1002}, 
"John', 'lname': 'Cleese', 'uid': 1001}, 
"Big', 'lname': ‘Jones’, ‘uid': 1004} 











根据 任意 的 字典 字段 来 排序 输入 结果 行 是 很 容易 实现 的 ， 代 码 示例 : 


from operator import itemgetter 


rows_by_fna 
rows_by_uid 


print(rows_ 
print (rows _| 


me = 


sorted(rows, key=itemgetter('fname’ )) 


= sorted(rows, key=itemgetter('uid')) 


by_fname) 
by_uid) 


代码 的 输出 如 下 : 


[{'fname': 
{'fname': 
{'fname': 
{'fname': 
[{'fname': 
{'fname': 
{'fname': 
{'fname': 


Big”: “uid”: 
“Brian”, "wid": 
"David', “uid”: 
"John", "uid": 

‘John’. “wads 
"David", ‘uid’: 
“Brian, "uid": 
"Big, "uid": 


1004, 'lname': 
1003, 'lname': 
1002, 'lname': 

1001, 'lname': 
1001, 'lname': 
1002, 'lname': 
1003, 'lname': 

1004, 'lname': 


'Jones'}, 
'Jones'}, 
'Beazley'}, 

'Cleese'}] 
'Cleese'}, 
'Beazley'}, 
'Jones'}, 

'Jones'}] 


itemgetter() 函数 也 支持 多 个 keys， 比 如 下 面 的 代码 


rows_by_lfname = 


print(rows_by_lfname) 


会 产生 如 下 的 输出 : 


sorted(rows, key=itemgetter('lname', 'fname')) 


[{'fname': 'David', ‘uid’: 1002, 'lname': 'Beazley'}, 
{'fname': 'John', 'uid': 1001, 'lname': 'Cleese'}, 
{'fname': "Big', ‘uid': 1004, 'lname': ‘Jones'}, 
{'fname': "Brian', ‘uid': 1003, ‘lname': 'Jones'}] 


讨论 


在 上 面 例子 中 ， rows 被 传递 给 接受 一 个 关键 字 参 数 的 sorted() ABBA. 这 个 参数 是 
callable 类 型 ， 并 且 从 rows 中 接受 一 个 单一 元 素 ， 然 后 返回 被 用 来 排序 的 值 。 
itemgetter() 函数 就 是 负责 创建 这 个 callable 对 象 的 。 





operator.itemgetter() 国 数 有 一 个 被 rows 中 的 记录 用 来 查找 值 的 索引 参数 。 可 以 是 一 个 

字典 键 名 称 ， 一 个 整形 值 或 者 任何 能 够 传 入 一 个 对 象 的 _getitem _() 方法 的 值 。 如 果 

你 传 入 多 个 索引 参数 给 itemgetter() ， 它 生成 的 callable 对 象 会 返回 一 个 包含 所 有 元 素 
值 的 元 组 ， 并且 sorted() 函数 会 根据 这 个 元 组 中 元 素 顺 序 去 排序 。 但 你 想 要 同时 在 几 个 
字段 上 面 进 行 排序 (比如 通过 姓 和 名 来 排序 ， 也 就 是 例子 中 的 那样 ) 的 时 候 这 种 方法 是 很 有 
用 的 。 























itemgetter() 有 时 候 也 可 以 用 lambda 表达 式 代替 ， 比 如 : 


rows_by_fname = sorted(rows, key=lambda r: r['fname']) 
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'],r['fname'])) 


这 种 方案 也 不 错 。 但 是 ， 使 用 itemgetter() 方式 会 运行 的 稍微 快 点 。 因 此 ， 如 果 你 对 性 
能 要 求 比 较 高 的 话 就 使 用 itemgetter() 方式 。 











最 后 ， 不 要 忘 了 这 节 中 展示 的 技术 也 同样 适用 于 mino 和 max() 等 图 数 。 比 如 : 


>>> min(rows, key=itemgetter('uid')) 

{'fname': 'John', 'lname': ‘Cleese’, ‘uid': 1001} 
>>> max(rows, key=itemgetter(‘uid')) 

{'fname': 'Big', 'Iname': ‘Jones', ‘uid': 1004} 
>>> 





1.14 排序 不 文 持 原生 比较 的 对 象 


问题 


你 想 排序 类 型 相同 的 对 象 ， 但 是 他 们 不 支持 原生 的 比较 操作 。 


解决 方案 





内 置 的 sorted) 函数 有 一 个 关键 字 参 数 key ， 可 以 传 入 一 个 callable 对 象 给 它 ， 这 个 
callable 对 象 对 每 个 传 入 的 对 象 返 回 一 个 值 ， 这 个 值 会 被 sorted 用 来 排序 这 些 对 象 。 
比如 ， 如 果 你 在 应 用 程序 里 面 有 一 个 user 实例 序列 ， 并 且 你 希望 通过 他 们 的 user_id 属 
性 进行 排序 ， 你 可 以 提供 一 个 以 user 实例 作为 输入 并 输出 对 应 user_id 值 的 callable 
对 象 。 比 如 : 











class User: 
def __init__(self, user_id): 
self.user_id = user_id 


def _repr__(self): 
return ‘User({})'.format(self.user_id) 


def sort_notcompare(): 
users = [User(23), User(3), User(99) ] 
print(users) 


print(sorted(users, key=lambda u: u.user_id)) 


另外 一 种 方式 是 使 用 operator.attrgetter() KEAN F lambda rk žit: 


>>> from operator import attrgetter 

>>> sorted(users, key=attrgetter('user_id')) 
[User(3), User(23), User(99) ] 

>>> 


讨论 


选择 使 用 lambda 函 数 或 者 是 attrgetter() 可 能 取决 于 个 人 喜好 。 但 是 ， attrgetter() 





函数 通常 会 运行 的 快 点 ， 并 且 还 能 同时 允许 多 个 字段 进行 比较 。 这 个 跟 
operator.itemgetter() 水 数 作 用 于 字典 类 型 很 类 似 ( 参 考 1.13 小 节 )。 例 如 ， 如 果 user SE 
例 还 有 一 个 first_name 和 1ast_name 属性 ， 那 么 可 以 向 下 面 这 样 排序 : 








by_name = sorted(users, key=attrgetter('last_name', 'first_name')) 


同样 需要 注意 的 是 ， 这 一 小 节 用 到 的 技术 同样 适用 于 像 mino 和 max() 之 类 的 函数 。 比 
如 : 


>>> min(users, key=attrgetter('user_id') 
User(3) 

>>> max(users, key=attrgetter('user_id') 
User (99) 

>>> 





1.15 通过 某 个 字段 将 记录 分 组 


问题 








你 有 一 个 字典 或 者 实例 的 序列 ， 然 后 你 想 根 据 茶 个 特定 的 字段 比如 date SAP LIA 
问 。 


itertools.groupby() 函数 对 于 这 样 的 数据 分 组 操作 非常 实用 。 为 了 演示 ， 假 设 你 已 经 有 
了 下 列 的 字典 列表 : 


rows = [ 

{'address': '5412 N CLARK', ‘date’: '@7/01/2012'}, 
{'address': '5148 N CLARK', ‘date': '07/04/2012'}, 
{'address': '580@ E 58TH', ‘date': '07/0@2/2012'}, 
{'address': '2122 N CLARK', ‘date': '07/03/2012'}, 
{'address': '5645 N RAVENSWOOD', ‘date’: '07/02/2012'}, 
{'address': '106@ W ADDISON', ‘date’: '@7/02/2012'}, 
{'address': '4801 N BROADWAY', ‘date': '@7/01/2012'}, 
{'address': '1039 W GRANVILLE’, ‘date': '@7/04/2012'}, 


现在 假设 你 想 在 按 date 分 组 后 的 数据 块 上 进行 迭代 。 为 了 这 样 做 ， 你 首先 需要 按照 指定 的 
字段 (这 里 就 是 date ) 排 序 ， 然后 调用 itertools.groupby() pk AL: 





from operator import itemgetter 


from itertools import groupby 


# Sort by the desired field first 


rows.sort(key=itemgetter('‘date')) 


# Iterate in groups 


for date, items in groupby(rows, key=itemgetter('date')): 
print(date) 
for i in items: 


print(' ', i) 
运行 结 
07/01/2012 
{'date': '@7/01/2012', ‘address’: '5412 N CLARK'} 
{'date': '@7/01/2012', ‘address': '4801 BROADWAY ' } 
07/02/2012 
{'date': '@7/02/2012', ‘address': '5800 58TH'} 
{'date': '@7/02/2012', ‘address': '5645 RAVENSWOOD' } 
{'date': '@7/02/2012', 'address': '1060 ADDISON' } 
07/03/2012 
{'date': '@7/03/2012', ‘address’: '2122 CLARK ' } 
07/04/2012 
{'date': '@7/04/2012', ‘address': '5148 CLARK ' } 
{'date': '@7/04/2012', ‘address': '1039 GRANVILLE‘ } 
讨论 





groupby() 函数 扫描 整个 序列 并 且 碍 找 连续 相同 值 (或 者 根据 指定 key 函 数 返 回 值 相同 ) 的 元 
素 序列 。 在 每 次 迭代 的 时 候 ， 它 会 返回 一 个 值 和 一 个 迭代 器 对 象 ， 这 个 从 代 器 对 象 可 以 
生成 元 素 值 全 部 等 于 上 面 那个 值 的 组 中 所 有 对 象 。 











一 个 非常 重要 的 准备 步骤 是 要 根据 指定 的 字段 将 数据 排序 。 因 为 groupby() 仅仅 检查 连 
续 的 元 素 ， 如 果 事 先 并 没有 排序 完成 的 话 ， 分 组 函数 将 得 不 到 想 要 的 结 采 。 


如 果 你 仅仅 只 是 想 根 据 date 字 段 将 数据 分 组 到 一 个 大 的 数据 结构 中 去 ， 并 且 人 允许 随机 访 
问 ， 那 么 你 最 好 使 用 defaultdict() 来 构建 一 个 多 值 字 典 ， 关 于 多 值 字典 已 经 在 1.6 小 节 
有 过 详细 的 介绍 。 比 如 : 





from collections import defaultdict 
rows_by_date = defaultdict(list) 
for row in rows: 

rows_by_date[row[ 'date']].append(row) 





这 样 的 话 你 可 以 很 轻松 的 就 能 对 每 个 指定 日 期 访问 对 应 的 记录 : 


>>> for r in rows_by_date['07/01/2012']: 
. print(r) 


{'date': '@7/01/2012', ‘address': '5412 N CLARK'} 
{'date': '@7/01/2012', 'address': '4801 N BROADWAY' } 
>>> 


在 上 面 这 个 例子 中 ， 我 们 没有 必要 先 将 记录 排序 。 因 此 ， 如 果 对 内 存 占用 不 是 很 关心 ， 
这 种 方式 会 比 先 排序 然后 再 通过 | groupby() 函数 迭代 的 方式 运行 得 快 一 些 。 

1.16 过 滤 序 列 元 素 

问题 


你 有 一 个 数据 序列 ， 想 利用 一 些 规 则 从 中 提取 出 需要 的 值 或 者 是 缩短 序列 











最 简单 的 过 滤 序 列 元 素 的 方法 就 是 使 用 列表 推导 。 比 如 : 


>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 


>>> [n for n in mylist if n > ð] 
2 


[1, 4, 10, 2, 3] 

>>> [n for n in mylist if n < ð] 
[=S5 -7， =1] 

>>> 


使 用 列表 推导 的 一 个 潜在 缺陷 就 是 如 果 输 入 非常 大 的 时 候 会 产生 一 个 非常 大 的 结果 集 ， 占 
用 大 量 内 存 。 如 果 你 对 内 存 比 较 敏 感 ， 那 么 你 可 以 使 用 生成 器 表达 式 迭 代 产 生 过 滤 的 元 
素 。 比 如 : 


>>> pos = (n for n in mylist if n > ð) 
>>> pos 
<generator object <genexpr> at 6Xx1666a6eb6> 
>>> for x in pos: 
. print(x) 


有 时 候 ， 过 滤 规 则 比较 复杂 ， 不 能 简单 的 在 列表 推导 或 者 生成 器 表达 式 中 表达 出 来 。 比 
如 ， 假 设 过 滤 的 时 候 需 要 处 理 一 些 异 常 或 者 其 他 复杂 情况 。 这 时 候 你 可 以 将 过 滤 代码 放 到 
一 个 函数 中 ， 然 后 使 用 内 建 的 filter() 函数 。 示 例如 下 : 























values = ['1', '2', '-3', "-', '4', '"N/A', '5'] 
def is_int(val): 
try: 
x = int(val) 
return True 
except ValueError: 
return False 
ivals = list(filter(is_int, values) ) 
print(ivals) 
# Outputs ['1', '2', '-3', '4', '5'] 


filter() 函数 创建 了 一 个 迭代 器 ， 因 此 如 果 你 想得到 一 个 列表 的 话 ， 就 得 像 示 例 那样 使 
用 list() 去 转换 。 


讨论 


列表 推导 和 生成 器 表达 式 通常 情况 下 是 过 滤 数 据 最 简单 的 方式 。 其 实 它们 还 能 在 过 滤 的 
时 候 转换 数据 。 比 如 : 


>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 

>>> import math 

>>> [math.sqrt(n) for n in mylist if n > @] 

[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772 ] 
>>> 


过 滤 操 作 的 一 l o Nettle de ae 而 不 是 丢弃 它们 。 比如， 在 





一 列 数据 中 你 
ni 可 以 很 容易 的 解决 这 个 问题 ， 就 像 这 样 : 


>>> clip_neg = 
>>> clip_neg 


[as 4, ð, 


>>> clip_pos 
>>> clip_pos 


10, ©, 2, 3, @] 
= [n if n < @ else @ for n in mylist] 


[@, ð, -5, 


另外 一 个 值得 关注 的 过 滤 工 具 就 是 itertools.compress() ， 





[n if n > @ else ð for n in mylist] 


ð, -7, ©, Ə, -1] 








MERRIES MELEKA ee IE BS PRT EA. 通过 将 


它 以 一 个 iterable 对 象 和 一 


个 相对 应 的 Boolean 选择 器 序列 作为 输入 参数 。 然后 输出 iterable 对 象 中 对 应 选择 器 为 
True 的 元 素 。 当 你 需要 用 另外 一 个 相关 联 的 序列 来 过 滤 某 个 序列 的 时 候 ， 
比如 ， 假 如 现在 你 有 下 面 两 列 数据 : 


常 有 用 的 。 


addresses 
"5412 
"5148 
"5800 
"2122 
'5645 
'1060 
'4801 
'1039 

] 


counts = 


PLE URES A 


N 
N 
E 
N 
N 
W 
N 
W 


[ ð, 3; 19, 4, 1, 


[ 
CLARK', 


CLARK', 
58TH', 
CLARK' 
RAVENSWOOD ', 
ADDISON', 
BROADWAY' , 
GRANVILLE", 


BB 些 对 应 count 


7, 6, 1] 


直 大 于 5 的 地 址 全 部 输出 ， 那 么 你 可 以 这 样 做 : 





>>> from itertools import compress 


>>> more5 
>>> more5 


[n > 5 for n in counts] 


[False, False, True, False, False, True, True, False] 


>>> list(compress(addresses, more5)) 


['580@ E 58TH’, 


>>> 


这 里 的 关键 点 在 于 先 创 建 一 
函数 根据 这 个 序列 去 选择 输出 对 应 位 置 为 True 的 元 素 。 


"4801 N BROADWAY', '1039 W GRANVILLE" ] 


一 个 Boolean 序列 ， 指 示 哪 些 元 素 复合 条 件 。 


这 个 函数 是 非 


然后 compress() 





和 filter() 水 数 类 似 ， compress() 也 是 返回 的 一 个 迭代 器 。 因 此 ， 如 果 你 需要 得 到 
个 列表 ， 那 么 你 需要 使 用 1ist() 来 将 结果 转换 为 列表 类 型 。 


1.17 从 字典 中 提取 子 集 


问题 
你 想 构造 一 个 字典 ， 它 是 另外 一 个 字典 的 子 集 。 
解决 方案 





最 简单 的 方式 是 使 用 字典 推导 。 比 如 ; 


prices = { 
"ACME': 45.23, 
"AAPL": 612.78, 
"IBM: 205.55, 
'HPQ': 37.20, 
"FB": 10.75 
} 
# Make a dictionary of all prices over 200 
p1 = {key: value for key, value in prices.items() if value > 200} 
# Make a dictionary of tech stocks 
tech_names = {'AAPL', 'IBM', 'HPQ', 'MSFT'} 
p2 = {key: value for key, value in prices.items() if key in tech_names} 


讨论 





大 多 数 情况 下 字典 推导 能 做 到 的 ， 通 过 创建 一 个 元 组 序列 然后 把 它 传 给 dicto 函数 也 能 
实现 。 比 如 : 


p1 = dict((key, value) for key, value in prices.items() if value > 200) 








但 是 ， 字 典 推导 方式 表意 更 清晰 ， 并 且 实 际 上 也 会 运行 的 更 快 些 (在 这 个 例子 中 ， 实 际 测 
试 几 乎 比 dcit() 函数 方式 快 整整 一 倍 )。 








有 时 候 完 成 同一 件 事 会 有 多 种 方式 。 比 如 ， 第 二 个 例子 程序 也 可 以 像 这 样 重 写 : 





# Make a dictionary of tech stocks 
tech_names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = { key:prices[key] for key in prices.keys() & tech_names } 








但 是 ， 运 行 时 间 测 试 结果 显示 这 种 方案 大 概 比 第 一 种 方案 慢 1.6 倍 。 如 果 对 程序 运行 性 能 
要 求 比较 高 的 话 ， 需 要 花 点 时 间 去 做 计时 测试 。 关 于 更 多 计时 和 性 能 测试 ， 可 以 参考 
14.13 小 节 





1.18 映射 名 称 到 序列 元 素 


问题 








你 有 一 段 通过 下 标 访问 列表 或 者 元 组 中 元 素 的 代码 ， 但 是 这 样 有 时 候 会 使 得 你 的 代码 难以 
阅读 ， 于 是 你 想 通 过 名 称 来 访问 元 素 。 


collections.namedtuple() 函数 通过 使 用 一 个 普通 的 元 组 对 象 来 帮 你 解决 这 个 问题 。 这 个 
函数 实际 上 是 一 个 返回 Python 中 标准 元 组 类 型 子 类 的 一 个 工矿 方法 。 你 需要 传递 一 个 类 
型 名 和 你 需要 的 字段 给 它 ， 然 后 它 就 会 返回 一 个 类 ， 你 可 以 初始 化 这 个 类 ， 为 你 定义 的 字 
段 传递 值 等 。 代码 示例 : 








>>> from collections import namedtuple 

>>> Subscriber = namedtuple('Subscriber', ['addr', 'joined']) 
>>> sub = Subscriber('jonesy@example.com', '2012-10-19') 

>>> sub 

Subscriber (addr='jonesy@example.com', joined='2012-10-19' ) 
>>> sub.addr 

"jonesy@example.com' 

>>> sub.joined 

*2012-10-19' 

>>> 





尽管 namedtuple 的 实例 看 起 来 像 一 个 普通 的 类 实例 ， 但 是 它 跟 元 组 类 型 是 可 交换 的 ， 支 
持 所 有 的 普通 元 组 操作 ， 比 如 索引 和 解压 。 比如 : 


>>> len(sub) 

2 

>>> addr, joined = sub 
>>> addr 
"jonesy@example.com' 
>>> joined 
*2012-10-19' 

>>> 


命名 元 组 的 一 个 主要 用 途 是 将 你 的 代码 从 下 标 操作 中 解脱 出 来 。 因此， 如 果 你 从 数据 库 
调用 中 返回 了 一 个 很 大 的 元 组 列表 ， 通 过 下 标 去 操作 其 中 的 元 素 ， 当 你 在 表 中 添加 了 新 
的 列 的 时 候 你 的 代码 可 能 就 会 出 错 了 。 但 是 如 果 你 使 用 了 命名 元 组 ， 那 么 就 不 会 有 这 样 的 
顾虑 。 


为 了 说 明 清楚 ， 下 面 是 使 用 普通 元 组 的 代码 : 


def compute_cost(records): 
total = 0.0 
for rec in records: 

total += rec[1] * rec[2] 
return total 


下 标 操作 通常 会 让 代码 表意 不 清晰 ， 并 且 非 常 依赖 记录 的 结构 。 下面 是 使 用 命名 元 组 的 
版 本 : 


from collections import namedtuple 


Stock = namedtuple('Stock', ['name', 'shares', 'price']) 
def compute_cost(records): 
total = 0.0 
for rec in records: 
s = Stock(*rec) 
total += s.shares * s.price 
return total 


讨论 


命名 元 组 男 一 个 用 途 就 是 作为 字典 的 蔡 代 ， 因 为 字典 存储 需要 更 多 的 内 存 空间 。 如 果 你 
需要 构建 一 个 非常 大 的 包含 字典 的 数据 结构 ， 那 么 使 用 命名 元 组 会 更 加 高 效 。 但 是 需要 
注意 的 是 ， 不 像 字典 那样 ， 一 个 命名 元 组 是 不 可 更 改 的 。 比 如 : 





>>> s = Stock('ACME', 100, 123.45) 

>>> S 

Stock(name='ACME', shares=10@, price=123.45) 
>>> s.shares = 75 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
AttributeError: can't set attribute 

>>> 


如 果 你 真 的 需要 改变 然后 的 属性 ， 那 么 可 以 使 用 命名 元 组 实例 的 _replace() 方法 ， 它 会 
创建 一 个 全 新 的 命名 元 组 并 将 对 应 的 字段 用 新 的 值 取代 。 比 如 : 


>>> S = s._replace(shares=75) 

>>> S 

Stock(name='ACME', shares=75, price=123.45) 
>>> 








_replace() 方法 还 有 一 个 很 有 用 的 特性 就 是 当 你 的 命名 元 组 拥有 可 选 或 者 缺失 字段 时 
候 ， 它 是 一 个 非常 方便 的 填充 数据 的 方法 。 你 可 以 先 创建 一 个 包含 缺 省 值 的 原型 元 组 ， 
然后 使 用 _replace() 方法 创建 新 的 值 被 更 新 过 的 实例 。 比 如 : 











from collections import namedtuple 
Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time']) 


# Create a prototype instance 
stock_prototype = Stock('', ©, @.@, None, None) 


# Function to convert a dictionary to a Stock 
def dict_to_stock(s): 
return stock_prototype._replace(**s) 


下 面 是 它 的 使 用 方法 : 


>>> a = {'name': 'ACME', 'shares': 100, 'price': 123.45} 

>>> dict_to_stock(a) 

Stock(name='ACME', shares=100, price=123.45, date=None, time=None) 

>>> b = {'name': 'ACME', 'shares': 100, ‘price’: 123.45, ‘date’: '12/17/2012'} 
>>> dict_to_stock(b) 

Stock(name='ACME', shares=100, price=123.45, date='12/17/2012', time=None) 

>>> 








最 后 要 说 的 是 ， 如 果 你 的 目标 是 定义 一 个 需要 更 新 很 多 实例 属性 的 高 效 数据 结构 ， 那 么 命 





名 元 组 并 不 是 你 的 最 佳 选择 。 这 时 候 你 应 该 考虑 定义 一 个 包含 _ slots ”方法 的 类 (参考 
8.4 小 节 )。 


1.19 转换 并 同时 计算 数据 
问题 


你 需要 在 数据 序列 上 执行 聚集 函数 (比如 sum() ,min() , max() )， 但 是 首先 你 需要 先 转 
换 或 者 过 滤 数 据 


解决 方案 





一 个 非常 优雅 的 方式 去 结合 数据 计算 与 转换 就 是 使 用 一 个 生成 器 表达 式 参数 。 比如 ， 如 
果 你 想 计算 平方 和 ， 可 以 像 下 面 这 样 做 : 


nums = [1, 2, 3, 4, 5] 
s = sum(x * x for x in nums) 


下 面 是 更 多 的 例子 : 


# Determine if any .py files exist in a directory 
import os 
files = os.listdir('dirname') 
if any(name.endswith('.py') for name in files): 
print('There be python! ') 
else: 
print('Sorry, no python.') 
# Output a tuple as CSV 
s = (‘ACME', 50, 123.45) 
print(','.join(str(x) for x in s)) 
# Data reduction across fields of a data structure 
portfolio = [ 
{'name':'GOOG', 'shares': 50}, 
{'name':'YHOO', ‘shares': 75}, 
{'name':'AOL', 'shares': 20}, 
{'name':'SCOX', ‘shares’: 65} 
] 


min_shares = min(s['shares'] for s in portfolio) 


讨论 


上 面 的 示例 向 你 演示 了 当 生 成 器 表达 式 作 为 一 个 单独 参数 传递 给 函数 时 候 的 巧妙 语法 (你 
并 不 需要 多 加 一 个 括号 )。 比如 ， 下 面 这 些 语句 是 等 效 的 : 


sum((x * x for x in nums)) # 显示 的 传递 一 个 生成 器 表达 式 对 象 
sum(x * x for x in nums) # 更 加 优雅 的 实现 方式 ， 省 略 了 括号 





使 用 一 个 生成 器 表达 式 作 为 参数 会 比 先 创 建 一 个 临时 列表 更 加 高 效 和 优雅 。 比如 ， 如 果 
你 不 使 用 生成 器 表达 式 的 话 ， 你 可 能 会 考虑 使 用 下 面 的 实现 方式 : 


nums = [i; 2; 3; 45. 5] 
s = sum([x * x for x in nums]) 


这 种 方式 同样 可 以 达到 想 要 的 效果 ， 但 是 它 会 多 一 个 步骤， 先 创 建 一 个 额外 的 列表 。 对 
于 小 型 列表 可 能 没什么 关系 ， 但 是 如 果 元 素数 量 非常 大 的 时 候 ， 它 会 创建 一 个 巨大 的 仅 
仅 被 使 用 一 次 就 被 丢弃 的 临时 数据 结构 。 而 生成 器 方案 会 以 迭代 的 方式 转换 数据 ， 因 此 更 
省 内 存 。 





在 使 用 一 些 聚 集 函 数 比如 mino 和 max() 的 时 候 你 可 能 更 加 倾向 于 使 用 生成 器 版 本 ， 它 
们 接受 的 一 个 key 关 键 字 参 数 或 许 对 你 很 有 帮助 。 比如 ， 在 上 面 的 证 券 例子 中 ， 你 可 能 会 
考虑 下 面 的 实现 版 本 : 


# Original: Returns 26 

min_shares = min(s['shares'] for s in portfolio) 

# Alternative: Returns {'name': 'AOL', 'shares': 20} 
min_shares = min(portfolio, key=lambda s: s['shares']) 





1.20 合并 多 个 字典 或 映射 


问题 














现在 有 多 个 字典 或 者 映射 ， 你 想 将 它们 从 逻辑 上 合并 为 一 个 单一 的 映射 后 执行 某 些 操作 ， 
比如 查找 值 或 者 检查 某 些 键 是 否 存 在 。 








解决 方案 


加 入 你 有 如 下 两 个 字典 : 


现在 假设 你 必须 在 两 个 字典 中 执行 查找 操作 (比如 先 从 a 中 找 ， 如 果 找 不 到 再 在 b 中 
找 )。 一 个 非常 简单 扼 解 决 方案 就 是 使 用 collections 模块 中 的 chainmap 类 。 比 如 : 


from collections import ChainMap 

c = ChainMap(a,b) 

print(c['x']) # Outputs 1 (from a) 
print(c['y']) # Outputs 2 (from b) 
print(c['z']) # Outputs 3 (from a) 


讨论 





一 个 chainMap 接受 多 个 字典 并 将 它们 在 逻辑 上 变 为 一 个 字典 。 然 后， 这 些 字典 并 不 是 真 
的 合并 在 一 起 了 ， chainMap 类 只 是 在 内 部 创建 了 一 个 容纳 这 些 字 典 的 列表 并 重新 定义 了 
一 些 和 常见 的 字典 操作 来 避 历 这 个 列表 。 大 部 分 字典 操作 都 是 可 以 正常 使 用 的 ， 比 如 : 














>>> len(c) 

3 

>>> list(c.keys()) 
['x', ‘y's 2] 

>>> list(c.values()) 
i1, 2, 3] 

>>> 





如 果 出 现 重 复 键 ， 那 么 第 一 次 出 现 的 映射 值 会 被 返回 。 因 此 ， 例 子 程序 中 的 c['z'] 总 是 
会 返回 字典 a 中 对 应 的 值 ， 而 不 是 b 中 对 应 的 值 。 





对 于 字典 的 更 新 或 删除 操作 总 是 影响 的 是 列表 中 第 一 个 字典 。 比 如 : 


>>> c['z'] 
>>> c['w'] 
>>> del c[' 
>>> a 

{'w': 40, ' 
>>> del c[' 


10 
= 40 
x'] 


z': 10} 
y 


Traceback (most recent call last): 


KeyError: "Key not found in the first mapping: 'y 


>>> 





ChainMap 对 于 编程 语言 中 的 作用 范 围 变 





实 上 ， 有 一 些 方法 可 以 使 它 变 得 简单， 


>>> values 


= ChainMap() 


>>> values['x'] = 1 


>>> # Add a new mapping 


>>> values 


= values.new_child() 


>>> values['x'] = 2 


>>> # Add a new mapping 


>>> values 


= values.new_child() 


>>> values['x'] = 3 


>>> values 
ChainMap({' 


X Br (°K ES 2hy LK Se LP) 


>>> values['x' ] 


3 


>>> # Discard Last mapping 


>>> values 


= values.parents 


>>> values['x' ] 


2 


>>> # Discard Last mapping 


>>> values 


= values.parents 


>>> values['x' ] 


1 

>>> values 
ChainMap({' 
>>> 


xP 1) 


=I 


Al 





(比如 globals , locals 等 ) 是 非常 有 用 的 。 事 


作为 chainmap 的 蔡 代 ， 你 可 能 会 考虑 使 用 update() 方法 将 两 个 字典 合并 。 比 如 : 


>>> a {oR a SZ eS 
{y's 25. 725s 4 


>>> merged = dict(b) 


>>> b 


>>> merged.update(a) 
>>> merged['x' ] 


>>> merged['y' ] 


>>> merged['z' ] 


这 样 也 能 行 得 通 ， 但 是 它 需 要 你 创建 一 个 完全 不 同 的 字典 对 象 (或 者 是 破坏 现 有 字典 结 
构 )。 同时 ， 如 果 原 字典 做 了 更 新 ， 这 种 改变 不 会 反应 到 新 的 合并 字典 中 去 。 比 如 : 


>>> a['x'] = 13 
>>> merged['x' ] 
1 





ChianMap 使 用 原来 的 字典 ， 它 自己 不 创建 新 的 字典 。 所 以 它 并 不 会 产生 上 面 所 说 的 结 
果 ， 比 如 : 


> a a {x : b T2 3} 
5593 bos {yr 2 “zis A} 
>>> merged = ChainMap(a, b) 
>>> merged['x'] 


>>> af’ xX] = 42 
>>> merged['x'] # Notice change to merged dicts 


第 二 章 : FIRMA 


几乎 所 有 有 用 的 程序 都 会 涉及 到 茶 些 文本 处 理 ， 不 管 是 解析 数据 还 是 产生 输出 。 这 一 章 
将 重点 关注 文本 的 操作 处 理 ， 比 如 提取 字符 串 ， 搜 索 ， 蔡 换 以 及 解析 等 。 大 部 分 的 问题 
都 能 简单 的 调用 字符 串 的 内 建 方法 完成 。 但 是 ， 一 些 更 为 复杂 的 操作 可 能 需要 正则 表达 
式 或 者 强大 的 解析 器 ， 所 有 这 些 主题 我 们 都 会 详细 讲解 。 并 且 在 操作 Unicode 时 候 磁 到 的 
一 些 束 手 的 问题 在 这 里 也 会 被 提 及 到 。 




















Contents: 


2.1 使 用 多 个 界定 符 分 割 字 符 串 

















你 需要 将 一 个 字符 串 分 割 为 多 个 字段 ， 但 是 分 隔 符 (还 有 周围 的 空格 ) 并 不 是 固定 的 。 





string 对 象 的 split() 方法 只 适应 于 非常 简单 的 字符 串 分 割 情形 ， 它 并 不 允许 有 多 个 分 
隔 符 或 者 是 分 隔 符 周围 不 确定 的 空格 。 当 你 需要 更 加 灵活 的 切割 字符 串 的 时 候 ， 最 好 使 
用 re.split() 方法 : 











>>> line = ‘asdf fjdk; afed, fjek,asdf, foo' 
>>> import re 

>>> re.split(r'[;,\s]\s*', line) 

['asdf', 'fjdk', ‘afed', 'fjek', ‘asdf’, 'foo'] 


讨论 


函数 re.split() 是 非常 实用 的 ， 因 为 它 允 许 你 为 分 隔 符 指定 多 个 正则 模式 。 比如 ， 在 上 
面 的 例子 中 ， 分 隅 符 可 以 是 逗号 ， 分 号 或 者 是 空格 ， 并 且 后 面 紧 跟着 任意 个 的 空格 。 只 
要 这 个 模式 被 找到 ， 那 么 匹配 的 分 隔 符 两 边 的 实体 都 会 被 当成 是 结果 中 的 元 素 返 回 。 返 
回 结果 为 一 个 字段 列表 ， 这 个 跟 str.split() 返回 值 类 型 是 一 样 的 。 




















当 你 使 用 re.split() 函数 时 候 ， 需 要 特别 注意 的 是 正则 表达 式 中 是 否 包含 一 个 括号 捕获 
分 组 。 如 果 使 用 了 捕获 分 组 ， 那 么 被 匹配 的 文本 也 将 出 现在 结果 列表 中 。 比 如 ， 观 察 一 
下 这 段 代码 运行 后 的 结果 : 











>>> fields = re.split(r'(;|,|\s)\s*', line) 

>>> fields 

['asdf', 1 ae “fjdk Rog 'afed', yy 'fjek', So 'asdf', EE 'foo'] 
>>> 








获取 分 割 字 符 在 某 些 情况 下 也 是 有 用 的 。 比如 ， 你 可 能 想 保留 分 割 字 符 串 ， 用 来 在 后 面 
重新 构造 一 个 新 的 输出 字符 串 : 


>>> values = fields[::2] 

>>> delimiters = fields[1::2] + [''] 

>>> values 

['asdf', 'fjdk', ‘afed', 'fjek', ‘asdf', 'foo'] 

>>> delimiters 

[” ie 了 ae Pr "y's =] 

>>> # Reform the Line using the same delimiters 

>>> ''.join(v+d for v,d in zip(values, delimiters)) 
“asdf fjdk;afed,fjek,asdf,foo' 

>>> 





如 果 你 不 想 保 


留 分 割 字符 串 到 结果 列表 中 去 ， 但 仍然 需要 使 用 到 括号 来 分 组 正则 表达 式 的 
话 ， 确保 你 的 分 组 


是 非 捕 获 分 组 ， 形 如 (?:….) 。 比 如 : 





>>> re.split(r'(?:,|;|\s)\s*', line) 
['asdf', 'fjdk', 'afed', 'fjek', ‘asdf', 'foo'] 
>>> 





2.2 字符 串 开头 或 结尾 匹配 


问题 





你 需要 通过 指定 的 文本 模式 去 检查 字符 串 的 开头 或 者 结尾 ， 比 如 文件 名 后 缀 ，URL 


Scheme 等 等 。 


解决 方案 


检查 字符 串 开 头 或 结尾 的 一 个 简单 方法 是 使 用 str.startswith() 或 者 是 str.endswith() 
方法 。 比如 : 


>>> filename = 'spam.txt' 

>>> Ffilename.endswith('.txt') 
True 

>>> filename.startswith('file:') 
False 

>>> url = ‘http://www.python.org' 
>>> url.startswith('http:') 

True 

>>> 


如 果 你 想 检 查 多 种 匹配 可 能 ， 只 需要 将 所 有 的 匹配 项 放 入 到 一 个 元 组 中 去 ， 然后 传 给 
startswith() 或 者 endswith() 方法 : 


>>> import os 

>>> filenames = os.listdir('.') 

>>> filenames 

[ ‘Makefile’, 'foo.c', ‘'bar.py', ‘spam.c', ‘spam.h' ] 

>>> [name for name in filenames if name.endswith(('.c', '.h')) ] 
['foo.c', ‘spam.c', ‘'spam.h' 

>>> any(name.endswith('.py') for name in filenames) 

True 

>>> 


下 面 是 男 一 个 例子 : 


from urllib.request import urlopen 


def read_data(name): 
if name.startswith(('http:', ‘https:', ‘ftp:')): 
return urlopen(name).read() 
else: 
with open(name) as f: 
return f.read() 


奇怪 的 是 ， 这 个 方法 中 必须 要 输入 一 个 元 组 作为 参数 。 如果 你 恰巧 有 一 个 list 或 者 
set 类 型 的 选择 项 ， 要 确保 传递 参数 前 先 调用 tuple() 将 其 转换 为 元 组 类 型 。 比 如 : 


>>> choices = ['http:', 'ftp:'] 

>>> url = ‘http://www.python.org' 

>>> url.startswith(choices) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

TypeError: startswith first arg must be str or a tuple of str, not list 
>>> url.startswith(tuple(choices)) 

True 

>>> 


startswith() 和 endswith() 方法 提供 了 一 个 非常 方便 的 方式 去 做 字符 串 开头 和 结尾 的 检 





查 。 类 似 的 操作 也 可 以 使 用 切片 来 实现 ， 但 是 代码 看 起 来 没有 那么 优雅 。 比 如 : 


>>> filename = 'spam.txt' 

>>> filename[-4:] == '.txt' 

True 

>>> url = 'http://www.python.org' 

>>> url[:5] == 'http:' or url[:6] == "https:' or url[:4] == 'ftp:' 
True 

>>> 


你 可 以 能 还 想 使 用 正则 表达 式 去 实现 ， 比 如 : 


>>> import re 

>>> url = ‘http://www.python.org' 

>>> re.match('http:|https:|ftp:', url) 
<_sre.SRE_Match object at 0x101253098> 
>>> 


这 种 方式 也 行 得 通 ， 但 是 对 于 简单 的 匹配 实在 是 有 点 小 材 大 用 了 ， 本 节 中 的 方法 更 加 简单 
并 且 运 行 会 更 快 些 。 





最 后 提 一 下 ， 当 和 其 他 操作 比如 普通 数据 聚合 相 结合 的 时 候 startswith() 和 endswith() 
方法 是 很 不 错 的 。 比如 ， 下 面 这 个 语句 检查 某 个 文件 夹 中 是 否 存 在 指定 的 文件 类 型 : 


if any(name.endswith(('.c', '.h')) for name in listdir(dirname) ): 


2.3 用 Shell 通 配 符 匹 配 字符 串 
问题 


你 想 使 用 Unix Shell 中 常用 的 通配符 (比如 *.py ,Dat[6-9]*.csv 等 ) 去 匹配 文本 字符 串 


fnmatch 模块 提供 了 两 个 函数 一 一 fnmatch() 和 fnmatchcase() ， 可 以 用 来 实现 这 样 的 匹 
配 。 用 法 如 下 : 


>>> from fnmatch import fnmatch, fnmatchcase 
>>> fnmatch( "foo. txt", “*. txt") 


True 

>>> fnmatch('foo.txt', ‘'?0o0.txt') 
True 

>>> Ffnmatch('Dat45.csv', 'Dat[@-9]*') 
True 


>>> names = ['Dati.csv', ‘Dat2.csv', ‘config.ini', ‘foo.py'] 
>>> [name for name in names if fnmatch(name, ‘Dat*.csv')] 
['Dati.csv', ‘'Dat2.csv'] 

>>> 


fnmatch() 函数 使 用 底层 操作 系统 的 大 小 写 敏 感 规 则 (不 同 的 系统 是 不 一 样 的 ) 来 匹配 模 
式 。 比 如 : 


>>> # On OS X (Mac) 

>>> fnmatch('foo.txt', '*.TXT') 
False 

>>> # On Windows 

>>> Ffnmatch('foo.txt', '*.TXT') 
True 

>>> 


如 果 你 对 这 个 区 别 很 在 意 ， 可 以 使 用 fnmatchcase() 来 代替 。 它 完全 使 用 你 的 模式 大 小 写 
匹配 。 比 如 : 


>>> fnmatchcase('foo.txt', '*.TXT') 
False 
>>> 











这 两 个 函数 通常 会 被 忽略 的 一 个 特性 是 在 处 理 非 文 件 名 的 字符 捉 时 候 它 们 也 是 很 有 用 的 。 
比如 ， 假 设 你 有 一 个 街道 地 址 的 列表 数据 : 





addresses = [ 
"5412 N CLARK ST’, 
"1060 W ADDISON ST’, 
"1039 W GRANVILLE AVE’, 
"2122 N CLARK ST’, 
"4802 N BROADWAY’, 


你 可 以 像 这 样 写 列表 推导 : 


>>> from fnmatch import fnmatchcase 

>>> [addr for addr in addresses if fnmatchcase(addr, '* ST')] 

['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST'] 

>>> [addr for addr in addresses if fnmatchcase(addr, '54[@-9][@-9] *CLARK*') ] 
['5412 N CLARK ST'] 

>>> 


fnmatch() 函数 匹配 能 力 介 于 简单 的 字符 串 方 法 和 强大 的 正则 表达 式 之 间 。 如果 在 数据 处 
理 操作 中 只 需要 简单 的 通配符 就 能 完成 的 时 候 ， 这 通常 是 一 个 比较 合理 的 方案 。 






































Sr 


HAR TR ATES ig BEBO AE DLAC, BEE glob 模块 。 参 考 5.13 小 节 。 


2.4 字 符 串 匹配 和 搜索 
问题 


你 想 匹 配 或 者 搜索 特定 模式 的 文本 


解决 方案 





如 果 你 想 匹 配 的 是 字面 字符 串 ， 那 么 你 通常 只 需要 调用 基本 字符 串 方法 就 行 ， 比如 
str.find() , str.endswith() , str.startswith() 或 者 类 似 的 方法 : 


>>> text = ‘yeah, but no, but yeah, but no, but yeah 
>>> # Exact match 

>>> text == 'yeah' 

False 

>>> # Match at start or end 

>>> text.startswith('yeah' ) 

True 

>>> text.endswith('no' ) 

False 

>>> # Search for the Location of the first occurrence 
>>> text.find('no') 

10 

>>> 























对 于 复杂 的 匹配 需要 使 用 正则 表达 式 和 re 模块 。 为 了 解释 正则 表达 式 的 基本 原理 ， 假 
设 你 想 匹 配 数字 格式 的 日 期 字符 串 比 如 11/27/2012 ， 你 可 以 这 样 做 : 


>>> text1 = '11/27/2012' 
>>> text2 = 'Nov 27, 2012' 
>>> 
>>> import re 
>>> # Simple matching: \d+ means match one or more digits 
>>> if re.match(r'\d+/\d+/\d+', text1): 
. print('yes') 
. else: 
. print('no') 


yes 

>>> if re.match(r'\d+/\d+/\d+', text2): 
. print('yes') 
. else: 
. print('no') 


no 
>>> 


如 果 你 想 使 用 同一 个 模式 去 做 多 次 匹配 ， 你 应 该 先 将 模式 字符 串 预 编译 为 模式 对 象 。 比 
如 : 


>>> datepat = re.compile(r'\d+/\d+/\d+' ) 
>>> if datepat.match(text1): 

. print('yes') 

. else: 

. print('no') 


yes 
>>> if datepat.match(text2): 
. print('yes') 
. else: 
. print('no') 


no 
>>> 


match() 总 是 从 字符 串 开始 去 匹配 ， 如 果 你 想 查 找 字 符 串 任意 部 分 的 模式 出 现 位 置 ， 使 
用 findall() 方法 去 代替 。 比 如 ; 


>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013. ' 
>>> datepat.findall(text) 

['11/27/2012', '3/13/2013' ] 

>>> 


在 定义 正则 式 的 时 候 ， 通 常会 利用 括号 去 捕获 分 组 。 比 如 : 





>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)') 
>>> 




















捕获 分 组 可 以 使 得 后 面 的 处 理 更 加 简单 ， 因 为 可 以 分 别 将 每 个 组 的 内 容 提取 出 来 。 比 如 : 








>>> m = datepat.match('11/27/2012') 

>>> m 

<_sre.SRE_Match object at @x1005d275@> 

>>> # Extract the contents of each group 

>>> m.group(@) 

"11/27/2012' 

>>> m.group(1) 

,11， 

>>> m.group(2) 

97! 

>>> m.group(3) 

"2012" 

>>> m.groups() 

('11', '27', '2012') 

>>> month, day, year = m.groups() 

>>> 

>>> # Find all matches (notice splitting into tuples) 

>>> text 

"Today is 11/27/2012. PyCon starts 3/13/2013. ' 

>>> datepat.findall(text) 

[('11', '27', '2012'), ('3', '13', '2013')] 

>>> for month, day, year in datepat.findall(text): 
. print('{}-{}-{}'.format(year, month, day)) 


2012-11-27 


2013-3-13 
>>> 


findall() 方法 会 搜索 文本 并 以 列表 形式 返回 所 有 的 匹配 。 如果 你 想 以 迭代 方式 返回 匹 
配 ， 可 以 使 用 finditer() DIARRE, teu: 


>>> for m in datepat.finditer(text): 
. print(m.groups()) 


('11', '27', 2612") 
Ca Ss "20135 
>>> 


讨论 











关于 正则 表达 式 理 论 的 教程 已 经 超出 了 本 书 的 范围 。 不 过 ， 这 一 节 冰 述 了 使 用 re 模块 进行 
匹配 和 搜索 文本 的 最 基本 方法 。 核心 步骤 就 是 先 使 用 re.compile() 编译 正则 表达 式 字 符 
Hi, 然后 使 用 match() , findall() 或 者 finditer() 等 方法 。 











当 写 正则 式 字 符 串 的 时 候 ， 相 对 普遍 的 做 法 是 使 用 原始 字符 串 比 如 r'(\dr)v(\d+)/(\d+r)， 
。 这 种 字符 串 将 不 去 解析 反 斜 杜 ， 这 在 正则 表达 式 中 是 很 有 用 的 。 如 果 不 这 样 做 的 话 ， 
你 必须 使 用 两 个 反 斜 杜 ， 类 似 '(\\d+)/(\\dr)/(C\N\d+) 。 











需要 注意 的 是 mate) 方法 仅仅 检查 字符 串 的 开始 部 分 。 它 的 匹配 结果 有 可 能 并 不 是 你 
期 望 的 那样 。 比 如 ， 


>>> m = datepat.match('11/27/2012abcdef' ) 
>>> m 

<_sre.SRE_Match object at @x1005d27e8> 
>>> m.group() 

"11/27/2012' 

>>> 





如 果 你 想 精 确 匹 配 ， 确 保 你 的 正则 表达 式 以 $ 结 尾 ， 就 像 这 么 这 样 : 


>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)$') 
>>> datepat.match('11/27/2012abcdef' ) 

>>> datepat.match('11/27/2012' ) 

<_sre.SRE_ Match object at @x1005d275@> 

>>> 


最 后 ， 如 果 你 仅仅 是 做 一 次 简单 的 文本 匹配 /搜索 操作 的 话 ， 可 以 略 过 编译 部 分 ， 直 接 使 
用 re 模块 级 别 的 函数 。 比 如 : 


>>> re.findall(r' (\d+)/(\d+)/(\d+)', text) 
[('11', '27', '2012'), ('3', '13', '2013')] 
>>> 














但 是 需要 注意 的 是 ， 如 果 你 打算 做 大 量 的 匹配 和 搜索 操作 的 话 ， 最 好 先 编译 正则 表达 式 ， 
然后 再 重复 使 用 它 。 模块 级 别 的 函数 会 将 最 近 编 译 过 的 模式 缓存 起 来 ， 因 此 并 不 会 消耗 
太 多 的 性 能 ， 但 是 如 果 使 用 预 编译 模式 的 话 ， 你 将 会 减少 查找 和 一 些 额外 的 处 理 损耗 。 




















2.5 字符 串 搜索 和 替换 
问题 


你 想 在 字符 串 中 搜索 和 匹配 指定 的 文本 模式 


对 于 简单 的 字面 模式 ， 直 接 使 用 str.repalce() 方法 即 可 ， 比 如 : 


>>> text = ‘yeah, but no, but yeah, but no, but yeah" 
>>> text.replace('yeah', ‘yep') 

"yep, but no, but yep, but no, but yep" 

>>> 


对 于 复杂 的 模式 ， 请 使 用 re 模块 中 的 sO 函数 。 为 了 说 明 这 个 ， 假 设 你 想 将 形式 为 
11/27/261 的 日 期 字符 串 改 成 2612-11-27 。 示 例如 下 : 


>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013. ' 
>>> import re 

>>> re.sub(r' (\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) 
"Today is 2012-11-27. PyCon starts 2013-3-13.' 

>>> 


sub() 函数 中 的 第 一 个 参数 是 被 匹配 的 模式 ， 第 二 个 参数 是 蔡 换 模式 。 反 和 斜 杠 数字 比如 
\3 指向 前 面 模式 的 捕获 组 写 。 








如 果 你 打算 用 相同 的 模式 做 多 次 蔡 换 ， 考 虑 先 编译 它 来 提升 性 能 。 比 如 : 


>>> import re 

>>> datepat = re.compile(r' (\d+)/(\d+)/(\d+)') 
>>> datepat.sub(r'\3-\1-\2', text) 

"Today is 2012-11-27. PyCon starts 2013-3-13.' 
>>> 


MF NAZAR ER, AT AR RI Vad PRIOR NS, EC: 


>>> from calendar import month_abbr 
>>> def change_date(m): 
. mon_name = month_abbr[int(m.group(1)) ] 
. return '{} {} {}'.format(m.group(2), mon_name, m.group(3)) 


>>> datepat.sub(change date, text) 
"Today is 27 Nov 2012. PyCon starts 13 Mar 2013.' 
>>> 


一 个 替换 回调 函数 的 参数 是 一 个 match 对 象 ， 也 就 是 match() 或 者 findo 返回 的 对 
Zo EH groupo 方法 来 提取 特定 的 匹配 部 分 。 回 调 函数 最 后 返回 替换 字符 串 。 











如 果 除 了 蔡 换 后 的 结果 外 ， 你 还 想 知 道 有 多 少 蔡 换 发 生 了 ， 可 以 使 用 re.subn() HARE. 
比如 : 


>>> newtext, n = datepat.subn(r'\3-\1-\2', text) 
>>> newtext 

"Today is 2012-11-27. PyCon starts 2013-3-13.' 
>>> n 

2 

>>> 


讨论 





关于 正则 表达 式 搜索 和 替换 ， 上 面 演示 的 soo 方法 基本 已 经 涵盖 了 所 有 。 其 实 最 难 的 
部 分 就 是 编写 正则 表达 式 模 式 ， 这 个 最 好 是 留 给 作者 自己 去 练习 了 。 




















2.6 字符 串 忽略 大 小 写 的 搜索 蔡 换 
问题 


你 需要 以 忽略 大 小 写 的 方式 搜索 与 替换 文本 字符 


为 了 在 文本 操作 时 忽略 大 小 写 ， 你 需要 在 使 用 re 模块 的 时 候 给 这 些 操 作 提 供 
re.IGNORECASE 标志 参数 。 比 如 : 


>>> text = 'UPPER PYTHON, lower python, Mixed Python’ 
>>> re.findall('python', text, flags=re.IGNORECASE) 
['PYTHON', ‘python', '‘Python' ] 

>>> re.sub('python', ‘snake’, text, flags=re.IGNORECASE ) 
"UPPER snake, lower snake, Mixed snake’ 

>>> 





最 后 的 那个 例子 揭示 了 一 个 小 缺陷 ， 蔡 换 字 符 串 并 不 会 自动 跟 被 匹配 字符 串 的 大 小 写 保持 
一 致 。 为 了 修复 这 个 ， 你 可 能 需要 一 个 辅助 函数 ， 就 像 下 面 的 这 样 : 

















def matchcase(word): 
def replace(m): 
text = m.group() 
if text.isupper(): 
return word.upper() 
elif text.islower(): 
return word.lower() 
elif text[@].isupper(): 
return word.capitalize() 
else: 
return word 
return replace 


下 面 是 使 用 上 述 函 数 的 方法 : 


>>> re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE) 
"UPPER SNAKE, lower snake, Mixed Snake’ 
>>> 





译 者 注 : matchcase('snake' ) 返回 了 一 个 回调 函数 (参数 必须 是 match 对 象 )， 前 面 一 节 一 
节 提 到 过 ， sub() 函数 除了 接受 人 蔡 换 字符 串 外 ， 还 能 接受 一 个 回调 函数 。 





对 于 一 般 的 忽略 大 小 写 的 匹配 操作 ， 简 单 的 传递 一 个 re.IGNoRECASE 标志 参数 就 已 经 足够 
了 。 但 是 需要 注意 的 是 ， 这 个 对 于 某 些 需要 大 小 写 转 换 的 Unicode 匹 配 可 能 还 不 够 ， 参考 
2.10 小 节 了 解 更 多 细节 。 





2.7 最 短 匹 配 模式 


问题 


你 正在 试 着 用 正则 表达 式 匹 配 某 个 文本 模式 ， 但 是 它 找到 的 是 模式 的 最 长 可 能 匹配 。 而 
你 想 修改 它 变 成 查找 最 短 的 可 能 匹配 。 








解决 方案 


这 个 问题 一 般 出 现在 需要 匹配 一 对 分 隔 符 之 间 的 文本 的 时 候 ( 比 如 引号 包含 的 字符 串 )。 为 
了 说 明 清 楚 ， 考 虑 如 下 的 例子 : 


>>> str_pat = re.compile(r'\"(.*)\""') 

>>> text1 = ‘Computer says "no."' 

>>> str_pat.findall(text1) 

['no.'] 

>>> text2 = 'Computer says "no." Phone says "yes."' 
>>> str_pat.findall(text2) 

['no." Phone says "yes.'] 

>>> 


在 这 个 例子 中 ， 模 式 r'\"(.*)\"， 的 意图 是 匹配 被 双 引 号 包含 的 文本 。 但 是 在 正则 表达 
式 中 * 操 作 符 是 贪 禁 的 ， 因 此 匹配 操作 会 查找 最 长 的 可 能 匹配 。 于 是 在 第 二 个 例子 中 搜索 
text2 的 时 候 返 回 结果 并 不 是 我 们 想 要 的 。 








为 了 修正 这 个 问题 ， 可 以 在 模式 中 的 * 操 作 符 后 面 加 上 ?修饰 符 ， 就 像 这 样 : 


>>> str_pat = re.compile(r'\"(.*?)\""') 
>>> str_pat.findall(text2) 

['no.', 'yes.'] 

>>> 


这 样 就 使 得 匹配 变 成 非 贫 禁 横 式 ， 从 而 得 到 最 短 的 匹配 ， 也 就 是 我 们 想 要 的 结果 。 


讨论 


这 一 节 展 示 了 在 写 包含 点 () 字 符 的 正则 表达 式 的 时 候 遇 到 的 一 些 常见 问题 。 在 一 个 模式 字 
符 吕 中， 点 (J 匹 配 除了 换行 外 的 任何 字符 。 然 而 ， 如 果 你 将 点 (号 放 在 开始 与 结束 符 ( 比 
如 引号 ) 之 间 的 时 候 ， 那 么 匹配 操作 会 查找 符合 模式 的 最 长 可 能 匹配 。 这 样 通常 会 导致 很 
多 中 间 的 被 开始 与 结束 符 包 含 的 文本 被 忽略 掉 ， 并 最 终 被 包含 在 匹配 结果 字符 串 中 返回 。 
通过 在 * 或 者 + 这 样 的 操作 符 后 面 添加 一 个 ”可 以 强制 匹配 算法 改 成 寻找 最 短 的 可 能 
匹配 。 








2.8 2 íT VL Ac heh 
问题 


你 正在 试 着 使 用 正则 表达 式 去 匹配 一 大 块 的 文本 ， 而 你 需要 跨越 多 行 去 匹配 。 


解决 方案 
这 个 问题 很 典型 的 出 现在 当 你 用 点 (,) 去 匹配 任意 字符 的 时 候 ， 忘 记 了 点 (,) 不 能 匹配 换行 符 





的 事实 。 比如 ， 假 设 你 想 试 着 去 匹配 C 语 言 分 割 的 注释 : 


>>> comment = re.compile(r'/\*(.*?)\*/') 
>>> text1 = '/* this is a comment */' 
>>> text2 = '''/* this is a 

. multiline comment */ 


>>> 

>>> comment. findall(text1) 
[' this is a comment '] 
>>> comment. findall(text2) 


[] 


>>> 


为 了 修正 这 个 问题 ， 你 可 以 修改 模式 字符 串 ， 增 加 对 换行 的 支持 。 比 如 : 


>>> comment = re.compile(r'/\*((?:.|\n)*?)\*/') 
>>> comment. findall(text2) 

[' this is a\n multiline comment '] 

>>> 





在 这 个 模式 中 ，(?:.|\n) 指定 了 一 个 非 捕 获 组 (也 就 是 它 定 义 了 一 个 仅仅 用 来 做 匹配 ， 
而 不 能 通过 单独 捕获 或 者 编号 的 组 )。 








讨论 


re.compile() 函数 接受 一 个 标志 参数 叫 re.DOTALL ， 在 这 里 非常 有 用 。 它 可 以 让 正则 表 
达 式 中 的 点 (J 匹 配 包括 换行 符 在 内 的 任意 字符 。 比 如 : 


>>> comment = re.compile(r'/\*(.*?)\*/', re.DOTALL) 
>>> comment. findall(text2) 
[' this is a\n multiline comment '] 


对 于 简单 的 情况 使 用 re.poTALL 标记 参数 工作 的 很 好 ， 但 是 如 果 模 式 非常 复杂 或 者 是 为 
了 构造 字符 串 令 牌 而 将 多 个 模式 合并 起 来 (2.18 节 有 详细 描述 )， 这 时 候 使 用 这 个 标记 参数 
就 可 能 出 现 一 些 问题 。 如果 让 你 选择 的 话 ， 最 好 还 是 定义 自己 的 正则 表达 式 模式 ， 这 样 
它 可 以 在 不 需要 额外 的 标记 参数 下 也 能 工作 的 很 好 。 














2.9 将 Unicode 文 本 标准 化 


问题 


























你 正在 处 理 Unicode 字 符 串 ， 需 要 确保 所 有 字符 串 在 底层 有 相同 的 表示 。 


解决 方案 





在 Unicode 中 ， 某 些 字 符 能 够 用 多 个 合法 的 编码 表示 。 为 了 说 明 ， 考 虑 下 面 的 这 个 例子 : 


>>> s1 = 'Spicy Jalape\u@@Ff1o' 
>>> S2 = ‘Spicy Jalapen\u@3030' 
>>> s1 


"Spicy Jalapeno’ 
>>> S2 

"Spicy Jalapefo' 
>>> si == s2 
False 

>>> len(s1) 

14 

>>> len(s2) 

15 

>>> 


这 里 的 文本 ”Spicy Jalapefo" 使 用 了 两 种 形式 来 表示 。 第 一 种 使 用 整体 字符 ”各 (U+OOF1)， 
第 二 种 使 用 拉丁 字母 "n” 后 面 跟 一 个 ”~” 的 组 合 字 符 (U+0303)。 








在 需要 比较 字符 串 的 程序 中 使 用 字符 的 多 种 表示 会 产生 问题 。 为 了 修正 这 个 问题 ， 你 可 
以 使 用 unicodedata 模 块 先 将 文本 标准 化 : 





>>> import unicodedata 

>>> t1 = unicodedata.normalize('NFC', s1) 
>>> t2 = unicodedata.normalize('NFC', s2) 
>>> t1 == t2 

True 

>>> print(ascii(t1)) 

"Spicy Jalape\xf1o' 

>>> t3 = unicodedata.normalize('NFD', s1) 
>>> t4 = unicodedata.normalize('NFD', s2) 
>>> t3 == t4 

True 

>>> print(ascii(t3)) 

"Spicy Jalapen\u@3@30' 

>>> 


normalize() 第 一 个 参数 指定 字符 串 标准 化 的 方式 。 NFC 表 示 字 符 应 该 是 整体 组 成 (比如 
可 能 的 话 就 使 用 单一 编码 )， 而 NFD 表 示 字 符 应 该 分 解 为 多 个 组 合 字符 表示 。 

















Python 同样 支持 扩展 的 标准 化 形式 NFKC 和 NFKD， 它 们 在 处 理 某 些 字符 的 时 候 增 加 了 额 
外 的 兼容 特性 。 比 如 : 





>>> s = '\ufb01' # A single character 
>>> S 

有， 

>>> unicodedata.normalize('NFD', s) 
et 


# Notice how the combined letters are broken apart here 
>>> unicodedata.normalize('NFKD', s) 

‘eq! 

>>> unicodedata.normalize('NFKC', s) 

'fi' 

>>> 


讨论 



































标准 化 对 于 任何 需要 以 一 致 的 方式 处 理 Unicode 文 本 的 程序 都 是 非常 重要 的 。 当 处 理 来 自 
用 户 输 入 的 字符 串 而 你 很 难 去 控制 编码 的 时 候 尤 其 如 此 。 


























在 清理 和 过 滤 文 本 的 时 候 字 符 的 标准 化 也 是 很 重要 的 。 比如 ,假设 你 想 清除 掉 一 些 文本 
上 面 的 变 音 符 的 时 候 (可 能 是 为 了 搜索 和 匹配 ): 





>>> t1 = unicodedata.normalize('NFD', s1) 

>>> ''.join(c for c in t1 if not unicodedata.combining(c) ) 
"Spicy Jalapeno’ 

>>> 





最 后 一 个 例子 展示 了 unicodedata 模块 的 男 一 个 重要 方面 ， 也 就 是 测试 字符 类 的 工具 E 
数 。 combining 函数 可 以 测试 一 个 字符 是 否 为 和 音字 符 。 在 这 个 模块 中 还 有 其 他 函数 
用 于 查找 字符 类 别 ， 测 试 是 否 为 数字 字符 等 等 。 


X 











Unicode 显 然 是 一 个 很 大 的 主题 。 如 果 想 更 深入 的 了 解 关于 标准 化 方面 的 信息 ， 请 看 考 
Unicode 官 网 中 关于 这 部 分 的 说 明 Ned Batchelder 在 他 的 网 站 上 对 Python 的 Unicode 处 理 
问题 也 有 一 个 很 好 的 介绍 。 














2.10 在 正则 式 中 使 用 Unicode 


问题 





























你 正在 使 用 正则 表达 式 处 理 文本 ， 但 是 关注 的 是 Unicode 字 符 处 理 。 











默认 情况 下 re 模块 已 经 对 一 些 Unicode 字 符 类 有 了 基本 的 支持 。 比 如 ， vwa 已 经 匹配 
任意 的 unicode 数 字 字 符 了 : 


>>> import re 

>>> num = re.compile('\d+') 

>>> # ASCII digits 

>>> num.match('123') 

<_sre.SRE_Match object at 0x1007d9ed@> 
>>> # Arabic digits 

>>> num.match( '\u@661\UG662\U8663' ) 
<_sre.SRE_Match object at 0x10123403@> 
>>> 


如 果 你 想 在 模式 中 包含 指定 的 Unicode 字 符 ， 你 可 以 使 用 Unicode 字 符 对 应 的 转 义 序列 ( 比 
如 \uFFF 或 者 \uFFFFFFF )。 比 如， 下 面 是 一 个 匹配 几 个 不 同 阿拉 伯 编 码 页 面 中 所 有 字符 
的 正则 表达 式 : 








>>> arabic = re.compile('[\u6666-\u66ff\u6756-N\u677f\u68a6-\u68ff]+ ' ) 
>>> 














当 执 行 匹 配 和 搜索 操作 的 时 候 ， 最 好 是 先 标准 化 并 且 清 理 所 有 文本 为 标准 化 格式 (参考 2.9 
小 节 )。 但 是 同样 也 应 该 注意 一 些 特殊 情况 ， 比 如 在 忽略 大 小 写 匹 配 和 大 小 写 转换 时 的 行 
为 。 








>>> pat = re.compile('stra\u@@dfe', re.IGNORECASE ) 
>>> s = 'straße' 

>>> pat.match(s) # Matches 

<_sre.SRE_ Match object at 0x10069d37@> 

>>> pat.match(s.upper()) # Doesn't match 

>>> s.upper() # Case folds 

"STRASSE' 

>>> 


讨论 


混合 使 用 Unicode 和 正则 表达 式 通 常会 让 你 抓 狂 。 如 果 你 真 的 打算 这 样 做 的 话 ， 最 好 考虑 
下 安装 第 三 方正 则 式 库 ， 它 们 会 为 Unicode 的 大 小 写 转换 和 其 他 大 量 有 趣 特 性 提供 全 面 的 
文 持 ， 包 括 模糊 匹配 。 











你 想 去 掉 文 本 字符 串 开 头 ， 结 尾 或 者 中 间 不 想 要 的 字符 ， 比 如 空白 。 


strip() 方法 能 用 于 删除 开始 或 结尾 的 字符 。 1strip() 和 rstrip() 分 别 从 左 和 从 右 执 
行 删除 操作 。 默认 情况 下 ， 这 些 方法 会 去 除 空白 字符 ， 但 是 你 也 可 以 指定 其 他 字符 。 比 
如 : 


>>> # Whitespace stripping 
>>> s = ' hello world \n' 
>>> s.strip() 

"hello world' 

>>> s.lstrip() 

"hello world \n' 

>>> s.rstrip() 

' hello world’ 

>>> 

>>> # Character stripping 
>>> t = '----- héellesss=e* 


>>> t.strip('-=') 
"hello' 
>>> 


讨论 























这 些 strip) 方法 在 读 取 和 清理 数据 以 备 后 续 处 理 的 时 候 是 经 常会 被 用 到 的 。 比如 ， 你 
可 以 用 它们 来 去 掉 空格 ， 引 号 和 完成 其 他 任务 。 























但 是 需要 注意 的 是 去 除 操作 不 会 对 字符 串 的 中 间 的 文本 产生 任何 影响 。 比 如 : 


>>> s = ' hello world \n' 
>>> s = s.strip() 

>>> S 

"hello world’ 

>>> 














如 果 你 想 处 理 中 间 的 空格 ， 那 么 你 需要 求助 其 他 技术 。 比 如 使 用 replace() 方法 或 者 是 用 
正则 表达 式 蔡 换 。 示 例如 下 : 








>>> s.replace(' ', '') 
“"helloworld' 

>>> import re 

>>> re.sub('\s+', ' ', s) 
"hello world' 

>>> 


通常 情况 下 你 想 将 字符 串 strip 操作 和 其 他 迭代 操作 相 结合 ， 比 如 从 文件 中 读 取 多 行 数 
据 。 如 果 是 这 样 的 话 ， 那 么 生成 器 表达 式 就 可 以 大 显 喘 手 了 。 比 如 : 





with open(filename) as f: 
lines = (line.strip() for line in f) 
for line in lines: 
print(line) 


在 这 里 ， 表 达 式 lines = (line.strip() for line in f) 执行 数据 转换 操作 。 这 种 方式 非常 
高 效 ， 因 为 它 不 需要 预先 读 取 所 有 数据 放 到 一 个 临时 的 列表 中 去 。 它 仅仅 只 是 创建 一 个 
生成 器 ， 并 且 每 次 返回 行 之 前 会 先 执 行 strip 操 作 。 


对 于 更 高 阶 的 strip， 你 可 能 需要 使 用 translate() 方法 。 请 参阅 下 一 节 了 解 更 多 关于 字符 
串 清 理 的 内 容 。 

















2.12 审查 清理 文本 字符 串 


问题 








一 些 无 聊 的 幼稚 黑客 在 你 的 网 站 页 面 表单 中 输入 文本 ”pyth5F”"， 然 后 你 想 将 这 些 字符 清理 






































文本 清理 问题 会 涉及 到 包括 文本 解析 与 数据 处 理 等 一 系列 问题 。 在 非常 简单 的 情形 下 ， 

你 可 能 会 选择 使 用 字符 串 函 数 (比如 (str.upper() 和 str.lower() ) 将 文本 转 为 标准 格式 。 
使 用 str.replace() 或 者 re.sub() 的 简单 蔡 换 操作 能 删除 或 者 改变 指定 的 字符 序列 。 你 
同样 还 可 以 使 用 2.9 小 节 的 unicodedata.normalize() 函数 将 unicode 文 本 标准 化 。 














然后 ， 有 时 候 你 可 能 还 想 在 清理 操作 上 更 进一步 。 比 如 ， 你 可 能 想 消除 整个 区 间 上 的 字符 
或 者 去 除 变 音符 。 为 了 这 样 做 ， 你 可 以 使 用 经 常会 被 忽视 的 str.translate() HE. XI 
演示 ， 假 设 你 现在 有 下 面 这 个 凌乱 的 字符 串 ; 








>>> s = ‘'pythdfi\fis\tawesome\r\n' 
>>> Ss 

‘pythofi\x@cis\tawesome\r\n' 

>>> 

















第 一 步 是 清理 空白 字符 。 为 了 这 样 做 ， 先 创建 一 个 小 的 转换 表格 然后 使 用 translate() 77 





>>> remap = { 

ord yE) a T 

ord( NE) #7" Ti 

ord('\r') : None # Deleted 


>>> a = s.translate(remap) 


"pythoA is awesome\n' 








正如 你 看 的 那样 ， 空 白字 符 \t 和 \f 已 经 被 重新 映射 到 一 个 空格 。 回 车 字符 "直接 被 删 
除 。 


你 可 以 以 这 个 表格 为 基础 进一步 构建 更 大 的 表格 。 比 如 ， 让 我 们 删除 所 有 的 和 音符 : 


>>> import unicodedata 

>>> import sys 

>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) 
if unicodedata.combining(chr(c))) 


>>> b = unicodedata.normalize('NFD', a) 
>>> b 

"pythoA is awesome\n' 

>>> b.translate(cmb_chrs) 

"python is awesome\n' 

>>> 


上 面 例子 中 ， 过 使 用 dict.fromkeys() 方法 构造 一 个 字典 ， 每 个 Unicode 和 音符 作为 
键 ， ne None o 





然后 使 用 unicodedata.normalize() 将 原始 输入 标准 化 为 分 解 形式 字符 。 然后 再 调用 
translate 函数 删除 所 有 重音 符 。 同样 的 技术 也 可 以 被 用 来 删除 其 他 类 型 的 字符 (比如 控 


ry AMAT AN 


制 学 符 等 )。 








作为 另 一 个 例子 ， 这 里 构造 一 个 将 所 有 Unicode 数 字 字 符 映 射 到 对 应 的 ASCll 字 符 上 的 表 
格 : 


Vv 
v 
Vv 


digitmap = { c: ord('@') + unicodedata.digit(chr(c)) 
for c in range(sys.maxunicode) 
if unicodedata.category(chr(c)) == 'Nd' } 


>>> len(digitmap) 
>>> # Arabic digits 


>>> x = '\u@661\uU0662\uU0663' 
>>> x.translate(digitmap) 














另 一 种 清理 文本 的 技术 设计 到 MO 解码 与 编码 函数 。 这 里 的 思路 是 先 对 文本 做 一 些 初步 的 
清理 ， 然 后 再 结合 encode() 或 者 decode() 操作 来 清除 或 修改 它 。 比 如 : 























>>> a 

'python is awesome\n' 

>>> b = unicodedata.normalize('NFD', a) 

>>> b.encode('ascii'’, ‘ignore').decode('ascii') 
"python is awesome\n' 

>>> 





这 里 的 标准 化 操作 将 原来 的 文本 分 解 为 单独 的 和 音符 。 接 下 来 的 ASCII 编 码 / 解 码 只 是 简单 
的 一 下 子 丢 弃 掉 那些 字符 。 当然 ， 这 种 方法 仅仅 只 在 最 后 的 目标 就 是 获取 到 文本 对 应 
ACSII 表 示 的 时 候 生效 。 

















讨论 














文本 字符 清理 一 个 最 主要 的 问题 应 该 是 运行 的 性 能 。 一 般 来 讲 ， 代 码 越 简单 运行 越 快 。 
对 于 简单 的 蔡 换 操作 ， str.replace() 方法 通常 是 最 快 的 ， 甚 至 在 你 需要 多 次 调用 的 时 
候 。 比 如 ， 为 了 清理 空白 字符 ， 你 可 以 这 样 做 : 























def clean_spaces(s): 
s = s.replace('\r', '') 


s = s.replace('\t', ' ') 
s = s.replace('\f', ' ') 
return s 


如 果 你 去 测试 的 话 ， 你 就 会 发 现 这 种 方式 会 比 使 用 translate() 或 者 正则 表达 式 要 快 很 
多 。 








另 一 方面 ， 如 果 你 需要 执行 任何 复杂 字符 对 字符 的 重新 映射 或 者 删除 操作 的 话 ， 


tanslate() 方法 会 非常 的 快 。 


从 大 的 方面 来 讲 ， 对 于 你 的 应 用 程序 来 说 性 能 是 你 不 得 不 去 自己 研究 的 东西 。 不 幸 的 
是 ， 我 们 不 可 能 给 你 建议 一 个 特定 的 技术 ， 使 它 能 够 适应 所 有 的 情况 。 因此 实际 情况 中 





需要 你 自己 去 尝试 不 同 的 方法 并 评估 它 。 





尽管 这 一 节 集 中 讨论 的 是 文本 ， 但 是 类 似 的 技术 也 可 以 适用 于 字 节 ， 包 括 简单 的 蔡 换 ， 转 


换 和 正则 表达 式 。 


2.13 字符 串 对 齐 
问题 


你 想 通 过 某 种 对 齐 方 式 来 格式 化 字符 串 


解决 方案 


对 于 基本 的 字符 串 对 齐 操作 ， 可 以 使 用 字符 串 的 1just() ， 


比如 : 


>>> text = 'Hello World’ 
>>> text.1ljust(20) 
"Hello World 
>>> text.rjust(2e) 
Hello World’ 

>>> text.center(20) 

Hello World 
>>> 


所 有 这 些 方法 都 能 接受 一 个 可 选 的 填充 字符 。 比 如 : 


>>> text.rjust(20,'=") 
‘s========Hello World' 
>>> text.center(20,'*') 
'****žHello World*****' 


>>> 


rjust() 和 center() 方法 。 


函数 format() 同样 可 以 用 来 很 容易 的 对 齐 字符 串 。 你 要 做 的 就 是 使 用 <> 或 者 ”字符 


后 面 紧 跟 一 个 指定 的 宽度 。 比 如 : 


>>> format(text, '>20') 

' Hello World' 

>>> format(text, '<20') 

'Hello World i 

>>> format(text, '^20') 
Hello World 

>>> 


如 果 你 想 指 定 一 个 非 空 格 的 填充 字符 ， 将 它 写 到 对 齐 字符 的 前 面 即 可 : 


>>> format(text, '=>20s') 
'=========Hello World’ 
>>> format(text, '*^20s') 
'xx*x*Hello World*****' 


>>> 





当 格 式 化 多 个 值 的 时 候 ， 这 些 格式 代码 也 可 以 被 用 在 formato 方法 中 。 比 如 : 


>>> '{:>10s} {:>10s}'.format('Hello', 'World') 
Hello World’ 
>>> 


format() PRA “Mae he EAP. E AARRE, TRA ESE 
常 的 通用 。 比如， 你 可 以 用 它 来 格式 化 数字 : 





>>> x = 1.2345 

>>> format(x, '>10') 
1.2345" 

>>> format(x, '%10.2f') 
1.23 

>>> 


讨论 





在 老 的 代码 中 ， 你 经 常会 看 到 被 用 来 格式 化 文本 的 % 操作 符 。 比 如 : 


>>> '%-20s' % text 
"Hello World 

>>> '%420s' % text 

' Hello World' 
>>> 





但 是 ， 在 新 版 本 代码 中 ， 你 应 该 优先 选择 format() 函数 或 者 方法 。 formt 要 比 x 操 
作 符 的 功能 更 为 强大 。 并 且 format() 也 比 使 用 1just() , rjust() 或 center() 方法 更 通 
用 ， 因 为 它 可 以 用 来 格式 化 任意 对 象 ， 而 不 仅仅 是 字符 串 。 

如 果 想 要 完全 了 解 format() 函数 的 有 用 特性 ， 请 参考 在 线 Python 文 档 

2.14 合并 拼接 字符 串 

问题 


你 想 将 几 个 小 的 字符 串 合 并 为 一 个 大 的 字符 串 


解决 方案 














如 果 你 想 要 合并 的 字符 串 是 在 一 个 序列 或 者 iterable 中 ， 那 么 最 快 的 方式 就 是 使 用 
join() 方法 。 比如 : 


>>> parts = ['Is', 'Chicago', ‘Not’, 'Chicago?'] 
>>> ' '.join(parts) 

"Is Chicago Not Chicago?’ 

>>> ','.join(parts) 

"Is, Chicago,Not,Chicago?' 


>>> ''. join(parts) 
"IsChicagoNotChicago?' 
>>> 





初 看 起 来 ， 这 种 语法 看 上 去 会 比较 怪 ， 但 是 join() 被 指定 为 字符 串 的 一 个 方法 。 这 样 做 
的 部 分 原因 是 你 想 去 连接 的 对 象 可 能 来 自 各 种 不 同 的 数据 序列 (比如 列表 ， 元 组 ， 字 典 ， 
文件 ， 集 合 或 生成 器 等 )， 如 果 在 所 有 这 些 对 象 上 都 定义 一 个 join() 方法 明显 是 元 余 
的 。 因此 你 只 需要 指定 你 想 要 的 分 割 字 符 串 并 调用 他 的 join() 方法 去 将 文本 片段 组 合 起 
来 。 








如 果 你 仅仅 只 是 合并 少数 几 个 字符 串 ， 使 用 加 号 (+) 通 常 已 经 足够 了 : 


>>> a = ‘Is Chicago’ 
>>> b = "Not Chicago?’ 
>>> at’ ' +b 


"Is Chicago Not Chicago?’ 
>>> 


加 号 (+) 操 作 符 在 作为 一 些 复 杂 字 符 串 格式 化 的 替代 方案 的 时 候 通 常 也 工作 的 很 好 ， 比 
如 : 


>>> print('{} {}'.format(a,b)) 
Is Chicago Not Chicago? 

>>> print(a + ' ' + b) 

Is Chicago Not Chicago? 

>>> 


如 果 你 想 在 源码 中 将 两 个 字面 字符 串 合 并 起 来 ， 你 只 需要 简单 的 将 它们 放 到 一 起 ， 不 需要 
用 加 与 (+)。 比 如 : 





>>> a = 'Hello' ‘World’ 
>>> a 

"HelloWorld' 

>>> 


讨论 





字符 串 合 并 可 能 看 上 去 并 不 需要 用 一 整 节 来 讨论 。 但 是 不 应 该 小 看 这 个 问题 ， 程 序 员 通 
常 在 字符 串 格式 化 的 时 候 因 为 选择 不 当 而 给 应 用 程序 带 来 严重 性 能 损失 。 

















最 重要 的 需要 引起 注意 的 是 ， 当 我 们 使 用 加 号 (+) 操 作 符 去 连接 大 量 的 字符 串 的 时 候 是 非 
常 低 效 率 的 ， 因 为 加 号 连接 会 引起 内 存 复制 以 及 垃圾 回收 操作 。 特别 的 ， 你 永远 都 不 应 
像 下 面 这 样 写 字符 串 连 接 代码 : 





gu 证 
for p in parts: 
s += p 


这 种 写法 会 比 使 用 join() 方法 运行 的 要 慢 一 些 ， 因 为 每 一 次 执行 += 操 作 的 时 候 会 创建 一 
个 新 的 字符 串 对 象 。 你 最 好 是 先 收集 所 有 的 字符 串 片 段 然 后 再 将 它们 连接 起 来 。 


一 个 相对 比较 聪明 的 技巧 是 利用 生成 器 表达 式 (参考 1.19 小 节 ) 转 换 数据 为 字符 串 的 同时 合 
并 字符 串 ， 比 如 : 


>>> data = ['ACME', 50, 91.1] 

>>> ','.join(str(d) for d in data) 
"ACME, 50,91.1' 

>>> 


同样 还 得 注意 不 必要 的 字符 串 连 接 操 作 。 有 时 候 程 序 员 在 没有 必要 做 连接 操作 的 时 候 仍然 
多 此 一 举 。 比 如 在 打印 的 时 候 : 


print(a + ':' +b + ':' + c) # Ugly 
print(':'.join([a, b, c])) # Still ugly 
print(a, b, c, sep=':') # Better 


当 混 合 使 用 MO 操作 和 字符 串 连 接 操作 的 时 候 ， 有 时 候 需 要 仔细 研究 你 的 程序 。 比如 ， 考 
虑 下 面 的 两 端 代码 片段 : 





# Version 1 (string concatenation) 
f.write(chunk1 + chunk2) 


# Version 2 (separate I/O operations) 
f.write(chunk1) 
f.write(chunk2) 


如 果 两 个 字符 串 很 小 ， 那 么 第 一 个 版 本 性 能 会 更 好 些 ， 因 为 MO 系统 调用 天 生 就 慢 。 另外 
一 方面 ， 如 果 两 个 字符 串 很 大 ， 那 么 第 二 个 版 本 可 能 会 更 加 高 效 ， 因 为 它 避 免 了 创建 一 
个 很 大 的 临时 结果 并 且 要 复制 大 量 的 内 存 块 数据 。 还 是 那 句 话 ， 有 时 候 是 需要 根据 你 的 
应 用 程序 特点 来 决定 应 该 使 用 哪 种 方案 。 









































最 后 谈 一 下 ， 如 果 你 准备 编写 构建 大 量 小 字符 串 的 输出 代码 ， 你 最 好 考虑 下 使 用 生成 器 
函数 ， 利 用 yield 语 句 产生 输出 片段 。 比 如 : 


def sample(): 
yield 'Is' 
yield 'Chicago' 
yield 'Not' 
yield 'Chicago?' 





这 种 方法 一 个 有 趣 的 方面 是 它 并 没有 对 输出 片段 到 底 要 怎样 组 织 做 出 假设 。 例 如 ， 你 可 
以 简单 的 使 用 join() 方法 将 这 些 片 段 合 并 起 来 : 


text = ''.join(sample()) 


或 者 你 也 可 以 将 字符 串 片 段 重 定向 到 MO: 


for part in sample(): 
f.write(part) 


再 或 者 你 还 可 以 写 出 一 些 结合 MO 操作 的 混合 方案 : 


def combine(source, maxsize): 
parts = [] 
size = 0 
for part in source: 
parts.append(part) 
size += len(part) 
if size > maxsize: 
yield ''.join(parts) 
parts = [] 
size = 0 
yield ''.join(parts) 








# 结合 文件 操作 
with open('filename', 'w') as f: 
for part in combine(sample(), 32768): 
f.write(part) 


这 里 的 关键 点 在 于 原始 的 生成 器 函数 并 不 需要 知道 使 用 细节 ， 它 只 负责 生成 字符 串 片段 就 


2.15 FFF PHARE 
问题 


你 想 创 建 一 个 内 内 变量 的 字符 串 ， 变 量 被 它 的 值 所 表示 的 字符 串 蔡 换 掉 。 





Python 并 没有 对 在 字符 串 中 简单 蔡 换 变量 值 提 供 直 接 的 支持 。 但 是 通过 使 用 字符 串 的 
format() 方法 来 解决 这 个 问题 。 比 如 : 





>>> s = '{name} has {n} messages. ' 
>>> s.format(name='Guido', n=37) 
"Guido has 37 messages." 

>>> 





或 者 ， 如 果 要 被 蔡 换 的 变量 能 在 变量 域 中 找到 ， 那么 你 可 以 结合 使 用 format_map() 和 
vars() |o 就 像 下 面 这 样 : 


>>> name = 'Guido' 

>>> n = 37 

>>> s.format_map(vars()) 
"Guido has 37 messages. ' 
>>> 


vars() 还 有 一 个 有 意思 的 特性 就 是 它 也 适用 于 对 象 实例 。 比 如 : 


>>> class Info: 
def __init__(self, name, n): 
self.name = name 
self.n =n 


>>> a = Info('Guido', 37) 

>>> s.format_map(vars(a)) 
"Guido has 37 messages. ' 

>>> 


























format 和 format_map() 的 一 个 缺陷 就 是 它们 并 不 能 很 好 的 处 理 变 量 缺 失 的 情况 ， 比 如 : 











>>> s.format(name='Guido' ) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

KeyError: 'n' 

>>> 


一 种 避免 这 种 错误 的 方法 是 另外 定义 一 个 含有 missing O 方法 的 字典 对 象 ， 就 像 下 面 
这 样 : 


class safesub(dict): 

""" 防 止 key 找 不 到 """ 

def __missing (self, key): 
return '{' + key + '}' 





现在 你 可 以 利用 这 个 类 包装 输入 后 传递 给 format_map() : 


>>> del n # Make sure n is undefined 
>>> s.format_map(safesub(vars())) 
"Guido has {n} messages. ' 

>>> 





如 果 你 发 现 自己 在 代码 中 频繁 的 执行 这 些 步骤 ， 你 可 以 将 变量 蔡 换 步 骤 用 一 个 工具 函数 封 
装 起 来 。 就 像 下 面 这 样 : 








import sys 


def sub(text): 
return text.format_map(safesub(sys._getframe(1).f_locals)) 





现在 你 可 以 像 下 面 这 样 写 了 : 


>>> name = 'Guido' 

>>> n = 37 

>>> print(sub('Hello {name}")) 

Hello Guido 

>>> print(sub('You have {n} messages.')) 

You have 37 messages. 

>>> print(sub('Your favorite color is {color}')) 
Your favorite color is {color} 

>>> 


讨论 





多 年 以 来 由 于 Python 缺乏 对 变量 替换 的 内 置 支 持 而 导致 了 各 种 不 同 的 解决 方案 。 作 为 本 
节 中 展示 的 一 个 可 能 的 解决 方案 ， 你 可 以 有 时 候 会 看 到 像 下 面 这 样 的 字符 串 格式 化 代码 : 





>>> name = ‘Guido’ 

>>> n = 37 

>>> '%(name) has %(n) messages.’ % vars() 
"Guido has 37 messages." 

>>> 


你 可 能 还 会 看 到 字符 串 模 板 的 使 用 : 


>>> import string 

>>> s = string.Template('$name has $n messages.') 
>>> s.substitute(vars()) 

"Guido has 37 messages. ' 

>>> 





然而 ， format() 和 format_map() 相 比较 上 面 这 些 方案 而 已 更 加 先进 ， 因 此 应 该 被 优先 选 
择 。 使 用 format() 方法 还 有 一 个 好 处 就 是 你 可 以 获得 对 字符 串 格 式 化 的 所 有 支持 (对 
齐 ， 填 充 ， 数 字 格 式 化 等 待 )， 而 这 些 特性 是 使 用 像 模板 字符 串 之 类 的 方案 不 可 能 获得 
的 。 











本 机 还 部 分 介绍 了 一 些 高 级 特性 。 映 射 或 者 字典 类 中 鲜 为 人 知 的 _missing__() 方法 可 以 
让 你 定义 如 何 处 理 缺 失 的 值 。 在 safesub 类 中 ， 这 个 方法 被 定义 为 对 缺失 的 值 返回 一 个 
占 位 符 。 你 可 以 发 现 缺 失 的 值 会 出 现在 结果 字符 串 中 (在 调试 的 时 候 可 能 很 有 用 )， 而 不 是 


产生 一 个 KeyError 异常 。 





























sub() RAUH sys._getframe(1) 返回 调用 者 的 栈 帧 。 可 以 从 中 访问 属性 f_locals RIK 
得 局 部 变量 。 守 无 疑问 绝 大 部 分 情况 下 在 代码 中 去 直接 操作 栈 帧 应 该 是 不 推荐 的 。 但 

是 ， 对 于 像 字符 串 著 换 工具 函数 而 言 它 是 非常 有 用 的 。 另 外 ， 值 得 注意 的 是 f_locals 是 
一 个 复制 调用 函数 的 本 地 变量 的 字典 。 尽 管 你 可 以 改变 f_locals 的 内 容 ， 但 是 这 个 修改 
对 于 后 面 的 变量 访问 没有 任何 影响 。 所 以 ， 虽 说 访问 一 个 栈 帧 看 上 去 很 那 恶 ， 但 是 对 它 
的 任何 操作 不 会 覆盖 和 改变 调用 者 本 地 变量 的 值 。 























2.16 以 指定 列 宽 格 陈 化 字符 串 


问题 





你 有 一 些 长 字符 串 ， 想 以 指定 的 列 宽 将 它们 重新 格式 化 。 


使 用 textwrap 模块 来 格式 化 字符 串 的 输出 。 比 如 ， 假 如 你 有 下 列 的 长 字符 串 : 


s = "Look into my eyes, look into my eyes, the eyes, the eyes, \ 
the eyes, not around the eyes, don't look around the eyes, \ 
look into my eyes, you're under." 


下 面 演 示 使 用 textwrap 格式 化 字符 串 的 多 种 方式 : 


>>> import textwrap 

>>> print(textwrap.fill(s, 70)) 

Look into my eyes, look into my eyes, the eyes, the eyes, the eyes, 
not around the eyes, don't look around the eyes, look into my eyes, 
you're under. 


>>> print(textwrap.fill(s, 40)) 

Look into my eyes, look into my eyes, 
the eyes, the eyes, the eyes, not around 
the eyes, don't look around the eyes, 
look into my eyes, you're under. 


>>> print(textwrap.fill(s, 40, initial_indent=' ")) 
Look into my eyes, look into my 

eyes, the eyes, the eyes, the eyes, not 

around the eyes, don't look around the 

eyes, look into my eyes, you're under. 


>>> print(textwrap.fill(s, 40, subsequent_indent=' HY) 
Look into my eyes, look into my eyes, 

the eyes, the eyes, the eyes, not 

around the eyes, don't look around 

the eyes, look into my eyes, you're 

under. 


讨论 


textwrap 模块 对 于 字符 串 打 印 是 非常 有 用 的 ， 特 别 是 当 你 希望 输出 自动 匹配 终端 大 小 的 
时 候 。 你 可 以 使 用 os.get_terminal_ size() 方法 来 获取 终端 的 大 小 尺寸 。 比 如 ; 


>>> import os 

>>> os.get_terminal_size().columns 
80 

>>> 





fill() 方法 接受 一 些 其 他 可 选 参 数 来 控制 tab， 语 句 结尾 等 。 参阅 
textwrap.TextWrapper 文 档 获取 更 多 内 容 。 


2.17 在 字符 串 中 处 理 html 和 Xml 
问题 


你 想 将 HTML 或 者 XML 实体 如 gentity; 或 atcode; 蔡 换 为 对 应 的 文本 。 再 者 ， 你 需要 转 
换文 本 中 特定 的 字符 (比如 <, >, BK &)。 


解决 方案 





如 果 你 想 蔡 换 文本 字符 串 中 的 "< 或 者 "> ， 使 用 html.escape() 函数 可 以 很 容易 的 完成 。 
比如 : 


>>> s = ‘Elements are written as "<tag>text</tag>".' 

>>> import html 

>>> print(s) 

Elements are written as "<tag>text</tag>". 

>>> print(html.escape(s) ) 

Elements are written as &quot;&lt;tag&gt;text&lt; /tag&gt ;&quot;. 


>>> # Disable escaping of quotes 

>>> print(html.escape(s, quote=False)) 

Elements are written as "&lt;tag&gt;text&lt;/tag&gt;". 
>>> 














如 果 你 正在 处 理 的 是 ASCII 文 本 ， 并 有 日 想 将 非 ASCII 文 本 对 应 的 编码 实体 散 入 进去 ， 可 以 
给 某 些 |/O 函 数 传 递 参数 errors='xmlcharrefreplace' 来 达到 这 个 目 。 比如 : 








>>> S = 'Spicy Jalapefo' 

>>> s.encode('ascii', errors='xmlcharrefreplace' ) 
b'Spicy Jalape&#241;0' 

>>> 

















为 了 替换 文本 中 的 编码 实体 ， 你 需要 使 用 另外 一 种 方法 。 如果 你 正在 处 理 HTML 或 者 XML 
文本 ， 试 着 先 使 用 一 个 合适 的 HTML 或 者 XML 解析 器 。 通常 情况 下 ， 这 些 工 具 会 自动 蔡 换 
这 些 编码 值 ， 你 无 需 担 心 。 














有 时 候 ， 如 果 你 接收 到 了 一 些 含 有 编码 值 的 原始 文本 ， 需 要 手动 去 做 蔡 换 ， 通常 你 只 需 
要 使 用 HTML 或 者 XML 解析 器 的 一 些 相关 工具 函数 /方法 即 可 。 比 如 : 








>>> S = ‘Spicy &quot; Jalape&#241; o&quot. ' 
>>> from html.parser import HTMLParser 
>>> p = HTMLParser() 

>>> p.unescape(s) 

"Spicy "Jalapeno".' 

>>> 

>>> t = 'The prompt is &gt;&gt;&gt;' 

>>> from xml.sax.saxutils import unescape 
>>> unescape(t) 

"The prompt is >>>' 

>>> 


讨论 


在 生成 HTML 或 者 XML 文本 的 时 候 ， 如 果 正 确 的 转换 特殊 标记 字符 是 一 个 很 容易 被 忽视 的 
细节 。 特别 是 当 你 使 用 printo 函数 或 者 其 他 字符 串 格式 化 来 产生 输出 的 时 候 。 使 用 像 
html.escape() 的 工具 函数 可 以 很 容易 的 解决 这 类 问题 。 

















如 果 你 想 以 其 他 方式 处 理 文本 ， 还 有 一 些 其 他 的 工具 函数 比如 
xml.sax.saxutils.unescapge() 可 以 帮助 你 。 然而 ， 你 应 该 先 调研 清楚 怎样 使 用 一 个 合适 
的 解析 器 。 比如 ， 如 果 你 在 处 理 HTML 或 XML 文本 ， 使 用 某 个 解析 模块 比如 html.parse 
或 xml.etree.ElementTree 已 经 帮 你 自动 处 理 了 相关 的 蔡 换 细 市 。 









































2.18 字符 串 令 牌 解析 


问题 
你 有 一 个 字符 串 ， 想 从 左 至 右 将 其 解析 为 一 个 令 牌 流 。 


解决 方案 
假如 你 有 下 面 这 样 一 个 文本 字符 串 : 


text = 'foo = 23 + 42 * 10' 


为 了 令 牌 化 字符 串 ， 你 不 仅 需 要 匹配 模式 ， 还 得 指定 模式 的 类 型 。 比如 ， 你 可 能 想 将 字 
符 串 像 下 面 这 样 转换 为 序列 对 : 


tokens = [('NAME', '‘foo'), ('EQ','='), ('NUM', 
('NUM', '42'), ('TIMES', '*'), (‘NUM', 10')] 


为 了 执行 这 样 的 切 分 ， 第 一 步 就 是 像 下 面 这 样 利用 命名 捕获 


能 的 令 牌 ， 包 括 空格 : 


import re 

NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_@-9]*)' 
NUM = r'(?P<NUM>\d+)' 

PLUS = r'(?P<PLUS>\+)' 

TIMES = r'(?P<TIMES>\*)' 

EQ = r'(?P<EQ>=)' 

WS = r'(?P<WS>\s+)' 


ga"), ("PLYSY, 





master_pat = re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ 


+ )， 





组 的 正则 表达 式 来 定义 所 有 可 


> WS])) 


在 上 面 的 模式 中 ， ?P<TokENNAME> 用 于 给 一 个 模式 命名 ， 供 后 面 使 用 。 





下 一 步 ， 为 了 令 牌 化 ， 使 用 模式 对 象 很 少 被 人 知道 


的 scanner( 


) 方法 。 这 个 方法 会 创建 


一 个 scanner 对 象 ， 在 这 个 对 象 上 不 断 的 调用 match() 方法 会 一 步 步 的 扫描 目标 文本 ， 
每 步 一 个 匹配 。 下 面 是 演示 一 个 scanner 对 象 如 何 工作 的 交互 式 例子 : 


>>> scanner = master_pat.scanner('foo = 42') 
>>> scanner.match() 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('NAME', 'foo') 

>>> scanner.match() 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

(‘Ws', * ') 

>>> scanner.match() 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('EQ', '=") 

>>> scanner.match() 

<_sre.SRE_ Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

(‘Ws', ' ') 

>>> scanner.match() 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('NUM', '42') 

>>> scanner.match() 

>>> 


实际 使 用 这 种 技术 的 时 候 ， 可 以 很 容易 的 像 下 面 这 样 将 上 述 代 码 打包 到 一 个 生成 器 中 : 


def generate_tokens(pat, text): 
Token = namedtuple('Token', ['type', ‘'value']) 
scanner = pat.scanner(text) 
for m in iter(scanner.match, None): 
yield Token(m.lastgroup, m.group()) 


# Example use 

for tok in generate_tokens(master_pat, ‘foo = 42'): 
print (tok) 

Produces output 

Token(type='NAME', value='foo') 

Token(type='WS', value=' ') 

Token(type='EQ', value='=') 

Token(type='WS', value=' ') 

Token(type='NUM', value='42') 


E HH HH HR H 


如 果 你 想 过 滤 令 牌 流 ， 你 可 以 定义 更 多 的 生成 器 函数 或 者 使 用 一 个 生成 器 表达 式 。 比 
如 ， 下 面 演示 怎样 过 滤 所 有 的 空白 令 牌 : 


tokens = (tok for tok in generate_tokens(master_pat, text) 
if tok.type != 'WS') 
for tok in tokens: 
print (tok) 


讨论 














通常 来 讲 令 牌 化 是 很 多 高 级 文本 解析 与 处 理 的 第 一 步 。 为 了 使 用 上 面 的 扫描 方法 ， 你 需 
要 记 住 这 里 一 些 重要 的 几 点 。 第 一 点 就 是 你 必须 确认 你 使 用 正则 表达 式 指 定 了 所 有 输入 
中 可 能 出 现 的 文本 序列 。 如 果 有 任何 不 可 匹配 的 文本 出 现 了 ， 扫 描 就 会 直接 停止 。 这 也 
是 为 什么 上 面 例子 中 必须 指定 空白 字符 令 牌 的 原因 。 














令 脾 的 顺序 也 是 有 影响 的 。 re 模块 会 按照 指定 好 的 顺序 去 做 匹配 。 因此， 如 果 一 个 模 
式 恰 好 是 男 一 个 更 长 模式 的 子 字 符 串 ， 那 么 你 需要 确定 长 模式 写 在 前 面 。 比 如 : 


LT =P" (P13 
LE =F" (?P<LE><=)" 
EQ = r'(?P<EQ>=)' 


master_pat = re.compile('|'.join([LE, LT, EQ])) # Correct 
# master_pat = re.compile('/'.join([LT, LE, EQ])) # Incorrect 


第 二 个 模式 是 错 的 ， 因 为 它 会 将 文本 <= 匹 配 为 令 牌 LT 紧 跟 着 EQ， 而 不 是 单独 的 令 牌 LE， 
这 个 并 不 是 我 们 想 要 的 结果 。 








最 后 ， 你 需要 留意 下 子 字 符 串 形式 的 模式 。 比 如 ， 假 设 你 有 如 下 两 个 模式 : 








PRINT = r'(P<PRINT>print) ' 
NAME = r'(P<NAME>[a-zA-Z_][a-zA-Z_@-9]*)' 


master_pat = re.compile('|'.join([PRINT, NAME])) 


for tok in generate_tokens(master_pat, ‘printer'): 
print(tok) 


# Outputs : 
# Token(type='PRINT', value='print') 
# Token(type='NAME', value='er') 


关于 更 高 阶 的 令 牌 化 技术 ， 你 可 能 需要 查看 PyParsing 或 者 PLY 包 。 一 个 调用 PLY 的 例子 
在 下 一 节 会 有 演示 。 





2.19 实现 一 个 简单 的 递归 下 降 分 析 器 
问题 


你 想 根 据 一 组 语法 规则 解析 文本 并 执行 命令 ， 或 者 构造 一 个 代表 输入 的 抽象 语法 树 。 如 
果 语 法 非常 简单 ， 你 可 以 自己 写 这 个 解析 器 ， 而 不 是 使 用 一 些 框架 。 


解决 方案 


在 这 个 问题 中 ， 我 们 集中 讨论 根据 特殊 语法 去 解析 文本 的 问题 。 为 了 这 样 做 ， 你 首先 要 
以 BNF 或 者 EBNF 形 式 指 定 一 个 标准 语法 。 比如 ， 一 个 简单 数学 表达 式 语法 可 能 像 下 面 这 
样 : 





expr ::= expr + term 
| expr - term 
| term 
term ::= term * factor 


| term / factor 
| factor 


factor ::= ( expr ) 
| NUM 


或 者 ， 以 EBNF 形 式 : 


expr ::= term { (+|-) term }* 
term ::= factor { (*|/) factor }* 
factor ::= ( expr ) 

| NUM 








在 EBNF 中 ， 被 包含 在 {...}* 中 的 规则 是 可 选 的 。* 代 表 0 次 或 多 次 重复 ( 跟 正 则 表达 式 中 
意义 是 一 样 的 )。 








现在 ， 如 果 你 对 BNF 的 工作 机 制 还 不 是 很 明白 的 话 ， 就 把 它 当 做 是 一 组 左右 符号 可 相互 蔡 
换 的 规则 。 一 般 来 讲 ， 解 析 的 原理 就 是 你 利用 BNF 完 成 多 个 替换 和 扩展 以 匹配 输入 文本 

和 语法 规则 。 为 了 演示 ， 假 设 你 正在 解析 形 如 3 + 4 * 5 的 表达 式 。 这 个 表达 式 先 要 通 
过 使 用 2.18 节 中 介绍 的 技术 分 解 为 一 组 令 牌 流 。 结果 可 能 是 像 下 列 这 样 的 令 牌 序列 : 


























NUM + NUM * NUM 


在 此 基础 上 ， 解析 动作 会 试 着 去 通过 蔡 换 操作 匹配 语法 到 输入 令 牌 : 


expr 
expr ::= term { (+|-) term }* 

expr ::= factor { (*]/) factor }* { (+|-) term }* 

expr ::= NUM { (*|/) factor }* { (+|-) term }* 

expr ::= NUM { (+|-) term }* 

expr ::= NUM + term { (+|-) term }* 

expr ::= NUM + factor { (*|/) factor }* { (+|-) term }* 

expr ::= NUM + NUM { (*|/) factor}* { (+|-) term }* 

expr ::= NUM + NUM * factor { (*]/) factor }* { (+|-) term }* 
expr ::= NUM + NUM * NUM { (*|/) factor }* { (+|-) term }* 
expr ::= NUM + NUM * NUM { (+|-) term }* 

expr ::= NUM + NUM * NUM 


























PRAIA KIITA RN Bers Bee AEN TA FEMA, (Bee RE Be Ba A Pia SH Ac 
语法 规则 。 第 一 个 输入 令 牌 是 NUM， 因 此 替换 首先 会 匹配 那个 部 分 。 一 旦 匹配 成 功 ， 就 
会 进入 下 一 个 令 牌 +， 以 此 类 推 。 当 己 经 确定 不 能 匹配 下 一 个 令 牌 的 时 候 ， 右 边 的 部 分 ( 比 
如 { (*/) factor }* ) 就 会 被 清理 掉 。 在 一 个 成 功 的 解析 中 ， 整 个 右边 部 分 会 完全 展开 来 
匹配 输入 令 牌 流 。 
































有 了 前 面 的 知识 背景 ， 下 面 我 们 举 一 个 简单 示例 来 展示 如 何 构建 一 个 递归 下 降 表达 式 求 值 
程序 : 








#!/usr/bin/env python 
# -*- encoding: utf-8 -*- 
Topic: 下 降解 析 器 


Desc 





import re 
import collections 


# Token specification 
NUM = r'(?P<NUM>\d+)' 
PLUS = r'(?P<PLUS>\+)' 


MINUS = r'(?P<MINUS>-)' 
TIMES = r'(?P<TIMES>\*) ' 
DIVIDE = r'(?P<DIVIDE>/)' 
LPAREN = r'(?P<LPAREN>\()' 
RPAREN = r'(?P<RPAREN>\))' 


WS = r'(?P<WS>\s+)' 


master_pat = re.compile('|'.join([NUM, PLUS, MINUS, TIMES, 
DIVIDE, LPAREN, RPAREN, WS])) 

# Tokenizer 

Token = collections.namedtuple('Token', ['type', ‘value']) 


def generate_tokens(text): 
scanner = master_pat.scanner(text) 
for m in iter(scanner.match, None): 
tok = Token(m.lastgroup, m.group()) 
if tok.type != 'WS': 
yield tok 


# Parser 

class ExpressionEvaluator: 
Implementation of a recursive descent parser. Each method 
implements a single grammar rule. Use the ._accept() method 
to test and accept the current lookahead token. Use the ._expect() 
method to exactly match and discard the next token on on the input 
(or raise a SyntaxError if it doesn't match). 


def parse(self, text): 
self.tokens = generate_tokens(text) 
self.tok = None # Last symbol consumed 
self.nexttok = None # Next symbol tokenized 
self._advance() # Load first Lookahead token 
return self.expr() 


def _advance(self): 
"Advance one token ahead' 
self.tok, self.nexttok = self.nexttok, next(self.tokens, None) 


def _accept(self, toktype): 
"Test and consume the next token if it matches toktype’' 
if self.nexttok and self.nexttok.type == toktype: 


self._advance() 

return True 
else: 

return False 


def _expect(self, toktype): 
"Consume next token if it matches toktype or raise SyntaxError' 
if not self. _accept(toktype): 


raise SyntaxError('Expected ' + toktype) 
# Grammar rules follow 
def expr(self): 
"expression ::= term { ('+'|'-') term }*" 


exprval = self.term() 
while self. _accept('PLUS') or self. _accept('MINUS'): 
op = self.tok.type 
right = self.term() 
if op == 'PLUS': 
exprval += right 
elif op == 'MINUS': 
exprval -= right 
return exprval 


def term(self): 
"term ::= factor { ('*"|'/') factor }*" 
termval = self.factor() 
while self. accept('TIMES') or self._accept('DIVIDE'): 
op = self.tok.type 
right = self.factor() 


if op == 'TIMES': 
termval *= right 
elif op == ‘DIVIDE’: 


termval /= right 
return termval 


def factor(self): 
"factor ::= NUM | ( expr )" 
if self. _accept('NUM'): 
return int(self.tok.value) 
elif self. accept('LPAREN'): 
exprval = self.expr() 
self._expect('RPAREN' ) 
return exprval 
else: 
raise SyntaxError('Expected NUMBER or LPAREN' ) 


def descent_parser(): 
e = ExpressionEvaluator() 
print(e.parse('2')) 
print(e.parse('2 + 3')) 
print(e.parse('2 + 3 * 4')) 
print(e.parse('2 + (3 + 4) * 5')) 
# print(e.parse('2 + (3 + * 4)')) 
# Traceback (most recent call Last): 
# File "<stdin>", Line 1, in <module> 
# File "“exprparse.py", Line 40, in parse 
# return self.expr() 


File "“exprparse.py", Line 67, in expr 
right = self.term() 

File "exprparse.py", Line 77, in term 
termval = self.factor() 

File "“exprparse.py", Line 93, in factor 
exprval = self.expr() 

File "“exprparse.py", Line 67, in expr 
right = self.term() 

File "exprparse.py", Line 77, in term 
termval = self.factor() 

File "exprparse.py", Line 97, in factor 
raise SyntaxError("Expected NUMBER or LPAREN") 
SyntaxError: Expected NUMBER or LPAREN 


# HR HH HR HH > HF HH HR HH HOR 


if _name == '_ main_' 
descent_parser() 





文本 解析 是 一 个 很 大 的 主题 ， 一 般 会 占用 学 生 学 习 编译 课程 时 刚 开 始 的 三 周 时 间 。 如 果 
你 在 找寻 关于 语法 ， 解 析 算 法 等 相关 的 背景 知识 的 话 ， 你 应 该 去 看 一 下 编译 器 书籍 。 很 
显然 ， 关 于 这 方面 的 内 容 太 多 ， 不 可 能 在 这 里 全 部 展开 。 








尽管 如 此 ， 编 写 一 个 递归 下 降解 析 器 的 整体 思路 是 比较 简单 的 。 开始 的 时 候 ， 你 先 获得 
所 有 的 语法 规则 ， 然 后 将 其 转换 为 一 个 函数 或 者 方法 。 因 此 如 果 你 的 语法 类 似 这 样 : 


expr ::= term { ('+'|'-') term }* 
term ::= factor { ('*'|'/') factor }* 
factor ::= '(' expr ')' 

| NUM 


你 应 该 首先 将 它们 转换 成 一 组 像 下 面 这 样 的 方法 : 


class ExpressionEvaluator: 
def expr(self): 
def term(self): 


def factor(self): 











每 个 方法 要 完成 的 任务 很 简单 - 它 必 须 从 左 至 右 遍 有 历 语 法 规则 的 每 一 部 分 ， 处 理 每 个 令 
牌 。 从 某 种 意义 上 讲 ， 方 法 的 目的 就 是 要 么 处 理 完 语法 规则 ， 要 么 产生 一 个 语法 错误 。 
为 了 这 样 做 ， 需 采用 下 面 的 这 些 实现 方法 : 











如 果 规 则 中 的 下 个 符号 是 另外 一 个 语法 规则 的 名 字 ( 比 如 term 或 factor)， 就 简单 的 调用 
同名 的 方法 即 可 。 这 就 是 该 算法 中 "下降" 的 由 来 - 控制 下 降 到 另 一 个 语法 规则 中 去 。 

有 时 候 规 则 会 调用 已 经 执行 的 方法 (比如 ， 在 factor ::= '('expr ')' 中 对 expr 的 调 
FA). 这 就 是 算法 中 "递归 "的 由 来 。 

如 果 规 则 中 下 一 个 符号 是 个 特殊 符号 (比如 ()， 你 得 查找 下 一 个 令 牌 并 确认 是 一 个 精确 
匹配 )。 如 果 不 匹 配 ， 就 产生 一 个 语法 错误 。 这 一 节 中 的 _expect() 方法 就 是 用 来 做 这 
一 步 的 ， 

如 果 规 则 中 下 一 个 符号 为 一 些 可 能 的 选择 项 (比如 + 或 -)， 你 必须 对 每 一 种 可 能 情况 检 
查 下 一 个 令 牌 ， 只 有 当 它 匹配 一 个 的 时 候 才 能 继续 。 这 也 是 本 节 示 例 中 _accept() 方 
法 的 目的 。 它 相当 于 _expect() 方 法 的 弱化 版 本 ， 因 为 如 果 一 个 匹配 找到 了 它 会 继续 ， 
但 是 如 果 没 找到 ， 它 不 会 产生 错误 而 是 回 深 ( 允 许 后 续 的 检查 继续 进行 )。 

对 于 有 重复 部 分 的 规则 (比如 在 规则 表达 式 ::= term { ('+'|'-') term }* 中 )， 重 复 动 
作 通 过 一 个 while 循 环 来 实现 。 循环 主体 会 收集 或 处 理 所 有 的 重复 元 素 直 到 没有 其 他 元 
FY AFR BI 
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中 值 是 怎样 累加 的 原理 。 比 如， 在 表达 式 求 值 程序 中 ， 返 回 值 代 表 表 达 式 解析 后 的 部 
分 结果 。 最 后 所 有 值 会 在 最 顶层 的 语法 规则 方法 中 合并 起 来 。 







































































oe 


尽管 向 你 演示 的 是 一 个 简单 的 例子 ， 递 归 下 降解 析 器 可 以 用 来 实现 非常 复杂 的 解析 。 EE 
如 ，Python 语 言 本 身 就 是 通过 一 个 递归 下 降解 析 器 去 解释 的 。 如 果 你 对 此 感 兴趣 ， 你 可 
以 通过 查看 Python 源码 文件 GrammarGrammar 来 研究 下 底层 语法 机 制 。 看 完 你 会 发 现 ， 
通过 手动 方式 去 实现 一 个 解析 器 其 实 会 有 很 多 的 局 限 和 不 足 之 处 。 








a 














其 中 一 个 局 限 就 是 它们 不 能 被 用 于 包含 任何 左 递归 的 语法 规则 中 。 比 如 ， 加 入 你 需要 翻译 
下 面 这 样 一 个 规则 : 


items ::= items ',' item 
| item 


为 了 这 样 做 ， 你 可 能 会 像 下 面 这 样 使 用 items() 方法 : 


def items(self): 
itemsval = self.items() 
if itemsval and self. _accept(','): 
itemsval.append(self.item() ) 
else: 
itemsval = [ self.item() ] 











唯一 的 问题 是 这 个 方法 根本 不 能 工作 ， 事 实 上 ， 它 会 产生 一 个 无 限 递归 错误 。 
关于 语法 规则 本 身 你 可 能 也 会 碰 到 一 些 棘手 的 问题 。 比如， 你 可 能 想 知道 下 面 这 个 简单 


扼 语法 是 否 表述 得 当 : 


expr ::= factor { ('+'|'-'|'*'|'/') factor }* 


factor ::= '(' expression ')' 
| NUM 





这 个 语法 看 上 去 没 啥 问题 ， 但 是 它 却 不 能 察觉 到 标准 四 则 运算 中 的 运算 符 优先 级 。 比 
如 ， 表 达 式 "3 + 4 * 5" 会 得 到 35 而 不 是 期 望 的 23. 分 开 使 用 "expr 和 "term 规则 可 以 让 它 
正确 的 工作 。 





对 于 复杂 的 语法 ， 你 最 好 是 选择 某 个 解析 工具 比如 PyParsing 或 者 是 PLY。 下面 是 使 用 PLY 
来 重 写 表达 式 求 值 程序 的 代码 : 











from ply.lex import lex 
from ply.yacc import yacc 


# Token List 

tokens = [ 'NUM', 'PLUS', 'MINUS', 'TIMES', 'DIVIDE', 'LPAREN', 'RPAREN' ] 
# Ignored characters 

t_ignore = ' \t\n' 

# Token specifications (as regexs) 
t_PLUS = r'\+' 

t_MINUS = r'-' 

t_TIMES = r'\*' 

t_DIVIDE = r'/' 

t_LPAREN = r'\(' 

t_RPAREN = r'\)' 


# Token processing functions 
def t_NUM(t): 
r'\d+' 
t.value = int(t.value) 
return t 


# Error handler 

def t_error(t): 
print('Bad character: {!r}'.format(t.value[@])) 
t.skip(1) 


# Build the Lexer 
lexer = lex() 


# Grammar rules and handler functions 
def p_expr(p): 


expr : expr PLUS term 


| expr MINUS term 


if p[2] == '+': 
p[@] = p[1] + p[3] 
elif p[2] == '-': 


p[@] = p[1] - p[3] 


def p_expr_term(p): 
expr : term 


p[@] = p[1] 


def p_term(p): 


term : term TIMES factor 
| term DIVIDE factor 


if p[2] == '*': 
p[@] = p[1] * p[3] 
elif p[2] == '/': 


p[6] = p[1] / p[3] 
def p_term_factor(p): 
term : factor 
p[@] = p[1] 
def p_factor(p): 
factor : NUM 
p[@] = p[1] 
def p_factor_group(p): 
factor : LPAREN expr RPAREN 
p[@] = p[2] 


def p_error(p): 
print('Syntax error’) 


parser = yacc() 





这 个 程序 中 ， 所 有 代码 都 位 于 一 个 比较 高 的 层次 。 你 只 需要 为 令 牌 写 正则 表达 式 和 规则 匹 
配 时 的 高 阶 处 理 函数 即 可 。 而 实际 的 运行 解析 器 ， 接 受 令 牌 等 等 底层 动作 已 经 被 库 函数 
实现 了 。 




















下 面 是 一 个 怎样 使 用 得 到 的 解析 对 象 的 例子 : 


>>> parser.parse('2') 

2 

>>> parser.parse('2+3') 

5 

>>> parser.parse('2+(3+4)*5') 
37 

>>> 


如 果 你 想 在 你 的 编程 过 程 中 来 点 挑战 和 刺激 ， 编 写 解 析 器 和 编译 器 是 个 不 错 的 选择 。 再 
次 ， 一 本 编译 器 的 书籍 会 包含 很 多 底层 的 理论 知识 。 不 过 很 多 好 的 资源 也 可 以 在 网 上 找 
到 。 Python 自己 的 ast 模 块 也 值得 去 看 一 下 。 



































2.20 FF FF BEY TITE BRE 
问题 


你 想 在 字 节 字符 串 上 执行 普通 的 文本 操作 (比如 移 除 ， 搜 索 和 替换 )。 


字 节 字符 串 同样 也 支持 大 部 分 和 文本 字符 串 一 样 的 内 置 操作 。 比 如 : 


>>> data = b'Hello World' 

>>> data[@:5] 

b'Hello' 

>>> data.startswith(b'Hello') 

True 

>>> data.split() 

[b'Hello', b'World'] 

>>> data.replace(b'Hello', b'Hello Cruel’) 
b'Hello Cruel World’ 

>>> 


这 些 操 作 同 样 也 适用 于 字 节 数组 。 比 如 : 


>>> 
>>> 
byte 
>>> 
True 
>>> 
[byt 
>>> 
byte 
>>> 


data = bytearray(b'Hello World’) 
data[@:5] 

array(b'Hello' ) 
data.startswith(b'Hello') 


data.split() 

earray(b'Hello'), bytearray(b'World')] 
data.replace(b'Hello', b'Hello Cruel") 
array(b'Hello Cruel World’) 


你 可 以 使 用 正则 表达 式 匹 配 字 节 字 符 串 ， 但 是 正则 表达 式 本 身 必须 也 是 字 节 串 。 比 如 : 


>>> 
>>> 
>>> 
>>> 
Trac 
File 
File 
retu 
Type 
>>> 
[b'F 
>>> 


data = b'FOO:BAR,SPAM' 
import re 
re.split('[:,]',data) 
eback (most recent call last): 
"<stdin>", line 1, in <module> 
"/usr/local/lib/python3.3/re.py", line 191, in split 
rn _compile(pattern, flags).split(string, maxsplit) 
Error: can't use a string pattern on a bytes-like object 
re.split(b'[:,]',data) # Notice: pattern as bytes 
00', b'BAR', b'SPAM'] 








大 多 数 情况 下 ， 在 文本 字符 串 上 的 操作 均 可 用 于 字 贡 字符 串 。 然 而 ， 这 里 也 有 一 些 需 
注意 的 不 同 点 。 首 先 ， 字 节 字 符 串 的 索引 操作 返回 整数 而 不 是 单独 字符 。 比 如 : 


a = 'Hello World' # Text string 
a[o] 


a[1] 


b = b'Hello World' # Byte string 
b[@] 


b[1] 

















这 种 语义 上 的 区 别 会 对 于 处 理 面 向 字 节 的 字符 数据 有 影响 。 














第 二 点 ， 字 节 字 符 串 不 会 提供 一 个 美观 的 字符 串 表 示 ， 也 不 能 很 好 的 打印 出 来 ， 除 非 它 们 
先 被 解码 为 一 个 文本 字符 串 。 比 如 : 


>>> s = b'Hello World' 

>>> print(s) 

b'Hello World’ # Observe b’...' 
>>> print(s.decode('ascii')) 
Hello World 

>>> 


类 似 的 ， 也 不 存在 任何 适用 于 字 节 字符 串 的 格式 化 操作 : 


>>> b'%10s %10d %10.2f' % (b'ACME', 100, 490.1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for %: ‘bytes’ and ‘tuple’ 
>>> b'{} {} {}'.format(b'ACME', 100, 490.1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'bytes' object has no attribute ‘format’ 
>>> 





如 果 你 想 格 式 化 字 节 字符 串 ， 你 得 先 使 用 标准 的 文本 字符 串 ， 然 后 将 其 编码 为 字 贡 字符 
串 o 比如 : 


>>> '{:10s} {:10d} {:10.2F}'.format('ACME', 100, 490.1).encode('ascii') 
b'ACME 100 490.10' 
>>> 








最 后 需要 注意 的 是 ， 使 用 字 节 字符 串 可 能 会 改变 一 些 操作 的 语义 ， 特 别 是 那些 跟 文件 系统 
有 关 的 操作 。 比如， 如 果 你 使 用 一 个 编码 为 字 节 的 文件 名 ， 而 不 是 一 个 普通 的 文本 字符 
串 ， 会 禁用 文件 名 的 编码 /解码 。 比 如 : 


>>> # Write a UTF-8 filename 
>>> with open('jalape\xflo.txt', 'w') as f: 
f.write('spicy') 


>>> # Get a directory Listing 

>>> import os 

>>> os.listdir('.') # Text string (names are decoded) 

[ 'jalapefio.txt' ] 

>>> os.listdir(b'.') # Byte string (names Left as bytes) 
[b'jalapen\xcc\x830.txt'] 

>>> 








注意 例子 中 的 最 后 部 分 给 目录 名 传递 一 个 字 节 字符 串 是 怎样 导致 结果 中 文件 名 以 未 解码 字 
节 返 回 的 。 在 目录 中 的 文件 名 包含 原始 的 UTF-8 编 码 。 参 考 5.15 小 节 获 取 更 多 文件 名 相关 
的 内 容 。 











最 后 提 一 点 ， 一 些 程序 员 为 了 提升 程序 执行 的 速度 会 倾向 于 使 用 字 节 字符 串 而 不 是 文本 字 
符 串 。 尽管 操作 字 节 字符 串 确实 会 比 文本 更 加 高 效 (因为 处 理 文本 固有 的 Unicode 相 关 开 
销 )。 这 样 做 通常 会 导致 非常 杂乱 的 代码 。 你 会 经 常 发 现 字 节 字符 串 并 不 能 和 Python 的 其 
他 部 分 工作 的 很 好 ， 并 且 你 还 得 手动 处 理 所 有 的 编码 /解码 操作 。 坦白 讲 ， 如 果 你 在 处 理 
文本 的 话 ， 就 直接 在 程序 中 使 用 普通 的 文本 字符 串 而 不 是 字 节 字符 串 。 不 做 死 就 不 会 死 ! 


























第 三 革 : 数字 日 期 和 时 间 


在 Python 中 执行 整数 和 浮 点 数 的 数学 运算 时 很 简单 的 。 尽管 如 此 ， 如 果 你 需要 执行 分 
数 、 数 组 或 者 是 日 期 和 时 间 的 运算 的 话 ， 就 得 做 更 多 的 工作 了 。 本 章 集中 讨论 的 就 是 这 


些 主题 。 








Contents: 


3.1 数字 的 四 舍 五 入 
问题 


你 想 对 浮 点 数 执 行 指定 精度 的 舍 入 运算 。 


解决 方案 
对 于 简单 的 舍 入 运算 ， 使 用 内 置 的 round(value, ndigits) PASE A. FEW: 


>>> round(1.23, 1) 


132 
>>> round(1.27, 1) 
1:3 
>>> round(-1.27, 1) 
RE] 


>>> round(1.25361,3) 
1.254 
>>> 





当 一 个 值 刚 好 在 两 个 边界 的 中 间 的 时 候 ， round 函数 返回 离 它 最 近 的 偶数 。 也 就 是 说 ， 
对 1.5 或 者 2.5 的 舍 入 运算 都 会 得 到 2。 


传 给 round() 函数 的 ndigits 参数 可 以 是 负数 ， 这 种 情况 下 ， 舍 入 运算 会 作用 在 十 位 、 
百 位 、 千 位 等 上 面 。 比 如 : 





>>> a = 1627731 
>>> round(a, -1) 
1627730 

>>> round(a, -2) 
1627700 

>>> round(a, -3) 
1628000 

>>> 


讨论 


不 要 将 舍 入 和 格式 化 输出 搞 混 淆 了 。 如 果 你 的 目的 只 是 简单 的 输出 一 定 宽度 的 数 ， 你 不 
需要 使 用 round() 函数 。 而 仅仅 只 需要 在 格式 化 的 时 候 指 定 精度 即 可 。 比 如 : 








>>> x = 1.23456 

>>> format(x, "6.2f') 

"1237 

>>> format(x, '0.3f') 

"2.235" 

>>> ‘value is {:0.3f}'.format(x) 
"value is 1.235' 

>>> 


同样 ， 不 要 试 着 去 舍 入 浮 点 值 来 "修正 "表面 上 看 起 来 正确 的 问题 。 比 如 ， 你 可 能 倾向 于 这 
样 做 : 


>>> a= 2.1 
>>> b = 4.2 
>>> c=a+b 
>>> C 


6. 300000000000001 

>>> c = round(c, 2) # "Fix" result (???) 
>>> C 

6.3 

>>> 


对 于 大 多 数 使 用 到 浮 点 的 程序 ， 没 有 必要 也 不 推荐 这 样 做 。 尽 管 在 计算 的 时 候 会 有 一 点 
点 小 的 误差 ， 但 是 这 些小 的 误差 是 能 被 理解 与 容忍 的 。 如 果 不 能 允许 这 样 的 小 误差 (比如 
涉及 到 金融 领域 )， 那 么 就 得 考虑 使 用 decinal 模块 了 ， 下 一 节 我 们 会 详细 讨论 。 

















3.2 执行 精确 的 浮 点 数 运算 
问题 


你 需要 对 浮 点 数 执行 精确 的 计算 操作 ， 并 且 不 希望 有 任何 小 误差 的 出 现 。 

















浮 点 数 的 一 个 普遍 问题 是 它们 并 不 能 精确 的 表示 十 进 制 数 。 并 且 ， 即 使 是 最 简单 的 数学 
运算 也 会 产生 小 的 误差 ， 比 如 : 





55> a = 4.2 

>>> b = 2.1 

>>> a +b 

6. 300000000000001 
>>> (a + b) == 6.3 
False 

>>> 


这 些 错误 是 由 底层 CPU 和 IEEE 754 标 准 通过 自己 的 浮 点 单位 去 执行 算术 时 的 特征 。 由 于 
Python 的 浮 点 数据 类 型 使 用 底层 表示 存储 数据 ， 因 此 你 没 办 法 去 避免 这 样 的 误差 。 











如 果 你 想 更 加 精确 (并 能 容忍 一 定 的 性 能 损耗 )， 你 可 以 使 用 decimal 模块 : 


>>> from decimal import Decimal 
>>> a = Decimal('4.2') 

>>> b = Decimal('2.1') 

>>> a+b 

Decimal('6.3') 

>>> print(a + b) 

6.3 

>>> (a + b) == Decimal('6.3') 
True 








初 看 起 来 ， 上 面 的 代码 好 像 有 点 奇怪 ， 比 如 我 们 用 字符 串 来 表示 数字 。 然而， Decimal 
对 象 会 像 普 通 浮 点 数 一 样 的 工作 (支持 所 有 的 常用 数学 运算 )。 如 果 你 打印 它们 或 者 在 字符 
串 格式 化 函数 中 使 用 它们 ， 看 起 来 跟 普 通 数字 没什么 两 样 。 














decimal 模块 的 一 个 主要 特征 是 允许 你 控制 计算 的 每 一 方面 ， 包 括 数字 位 数 和 四 舍 五 入 运 
算 。 为 了 这 样 做 ， 你 先 得 创建 一 个 本 地 上 下 文 并 更 改 它 的 设置 ， 比 如 : 


>>> from decimal import localcontext 
>>> a = Decimal('1.3') 
>>> b = Decimal('1.7') 
>>> print(a / b) 
0. 7647058823529411764705882353 
>>> with localcontext() as ctx: 
. ctx.prec = 3 
。 print(a / b) 
0.765 
>>> with localcontext() as ctx: 
. ctx.prec = 50 
. print(a / b) 


@.76470588235294117647058823529411764705882352941176 
>>> 


讨论 


decimal 模块 实现 了 IBM 的 "通用 小 数 运算 规范 "。 不 用 说 ， 有 很 多 的 配置 选项 这 本 书 没 有 
提 到 。 


























Python 新 手 会 倾向 于 使 用 decimal 模块 来 处 理 浮 点 数 的 精确 运算 。 然而 ， 先 理解 你 的 应 
用 程序 目的 是 非常 重要 的 。 如 果 你 是 在 做 科学 计算 或 工程 领域 的 计算 、 电 脑 绘图 ， 或 者 
是 科学 领域 的 大 多 数 运算 ， 那么 使 用 普通 的 浮 点 类 型 是 比较 普 裔 的 做 法 。 其 中 一 个 原因 
是 ， 在 真实 世界 中 很 少 会 要 求 精 确 到 普通 浮 点 数 能 提供 的 17 位 精度 。 因 此， 计算 过 程 中 


























执行 大 量 运 算 的 时 候 速 度 也 是 非常 重要 的 。 











即便 如 此 ， 你 却 不 能 完全 忽略 误差 。 数 学 家 花 了 大 量 时 间 去 研究 各 类 算法 ， 有 些 处 理 误 差 
会 比 其 他 方法 更 好 。 你 也 得 注意 下 减法 删除 已 经 大 数 和 小 数 的 加 分 运算 所 带 来 的 影响 。 
比如 : 








>>> nums = [1.23e+18, 1, -1.23e+18] 

>>> sum(nums) # Notice how 1 disappears 
0.0 

>>> 





上 面 的 错误 可 以 利用 math. tsum() 所 提供 的 更 精确 计算 能 力 来 解决 : 


>>> import math 

>>> math. fsum(nums) 
1.0 

>>> 











然而 ， 对 于 其 他 的 算法 ， 你 应 该 仔细 研究 它 并 理解 它 的 误差 产生 来 源 。 








总 的 来 说 ， decimal 模块 主要 用 在 涉及 到 金融 的 领域 。 在 这 类 程序 中 ， 哪 怕 是 一 点 小 小 
的 误差 在 计算 过 程 中 营 延 都 是 不 允许 的 。 因此 ， decimal 模块 为 解决 这 类 问题 提供 了 方 
法 。 当 Python 和 数据 库 打 交道 的 时 候 也 通常 会 遇 到 Decimal WHR, FFA, 通常 也 是 在 处 
里 金融 数据 的 时 候 。 














YH 








3.3 数字 的 格式 化 输出 


问题 





你 需要 将 数字 格式 化 后 输出 ， 并 控制 数字 的 位 数 、 对 齐 、 干 位 分 隔 符 和 其 他 的 细节 。 


解决 方案 


格式 化 输出 单个 数字 的 时 候 ， 可 以 使 用 内 置 的 format() 函数 ， 比 如 : 


>>> x = 1234.56789 


>>> # Two decimal places of accuracy 
>>> format(x, '0.2f') 
"1234.57" 


>>> # Right justified in 10 chars, one-digit accuracy 
>>> format(x, '>10.1f') 
1234.6' 


>>> # Left justified 
>>> format(x, '<10.1f') 
"1234.6 


>>> # Centered 
>>> format(x, '*10.1f') 
1234.6 


>>> # Inclusion of thousands separator 
>>> format(x, ',') 

"1,234.56789' 

>>> format(x, '@,.1f') 

"1,234.6' 

>>> 


UHR AE EF a I, CR eB EUR FT 18 Bi HK) Sesh). Pea: 


>>> format(x, ‘e') 
"1.234568e+03' 

>>> format(x, '@.2E') 
"1.23E+03' 

>>> 





同时 指定 宽度 和 精度 的 一 般 形式 是 “'[<>^]j?width[,]?(.digits)?' ， 其 中 width 和 digits 
为 整数 ，? 代表 可 选 部 分 。 同样 的 格式 也 被 用 在 字符 串 的 format() 方法 中 。 比 如 : 


>>> 'The value is {:0,.2f}'.format(x) 
"The value is 1,234.57' 
>>> 


数字 格式 化 输出 通常 是 比较 简单 的 。 上 面 演 示 的 技术 同时 适用 于 浮 点 数 和 decimal 模块 
中 的 Decimal 数字 对 象 。 


当 指 定数 字 的 位 数 后 ， 结 果 值 会 根据 roundo 函数 同样 的 规则 进行 四 舍 五 入 后 返回 。 比 
如 : 








>>> X 

1234.56789 

>>> format(x, '@.1f') 
"1234.6' 

>>> format(-x, '@.1f') 
"-1234.6' 

>>> 





包含 干 位 符 的 格式 化 跟 本 地 化 没有 关系 。 如 果 你 需要 根据 地 区 来 显示 干 位 符 ， 你 需要 自 
己 去 调查 下 locale 模块 中 的 函数 了 。 你 同样 也 可 以 使 用 字符 串 的 translate() 方法 来 交 
换 干 位 符 。 比 如 : 


>>> swap_separators = { ord('.'):',', ord(','):'." } 
>>> format(x, ‘,').translate(swap separators) 
"1.234,56789' 

>>> 


在 很 多 Python 代码 中 会 看 到 使 用 % 来 格式 化 数字 的 ， 比 如 : 


>>> '%0.2f' % x 


"1234.57" 

>>> '%10.1f' % x 
1234.6' 

>>> '%-10.1f' % x 

"1234.6 

>>> 








这 种 格式 化 方法 也 是 可 行 的 ， 不 过 比 更 加 先进 的 format() 要 差 一 点 。 比如 ， 在 使 用 % 操 
作 符 格式 化 数字 的 时 候 ， 一 些 特性 (添加 干 位 符 ) 并 不 能 被 支持 。 





3.4 二 八 十 六 进 制 整数 


问题 








你 需要 转换 或 者 输出 使 用 二 进 制 ， 八 进 制 或 十 六 进 制 表示 的 整数 。 














为 了 将 整数 转换 为 二 进 制 、 八 进 制 或 十 六 进 制 的 文本 串 ， 可 以 分 别 使 用 bin() , oct() 或 
hex() AŽ: 


>>> X = 1234 
>>> bin(x) 
'0b10011010010' 
>>> oct(x) 
'002322' 

>>> hex(x) 
"@x4d2" 

>>> 


另外 ， 如 果 你 不 想 输出 eb , eo 或 者 ex 的 前 缀 的 话 ， 可 以 使 用 formato 函数 。 比 如 : 


>>> format(x, ‘b') 
"10011010010 ' 

>>> format(x, 'o') 
12322" 

>>> format(x, 'x') 
"4d2 

>>> 














整数 是 有 符号 的 ， 所 以 如 果 你 在 处 理 负数 的 话 ， 输 出 结果 会 包含 一 个 负 号 。 比 如 : 








>>> x = -1234 

>>> format(x, 'b') 
"-10011010010' 

>>> format(x, 'x') 
"-4d2' 

>>> 











如 果 你 想 产 生 一 个 无 符号 值 ， 你 需要 增加 一 个 指示 最 大 位 长 度 的 值 。 比 如 为 了 显示 32 位 
的 值 ， 可 以 像 下 面 这 样 写 : 








>>> X = -1234 

>>> format (2**32 + x, 'b') 
"11111111111111111111101100101110' 
>>> format(2**32 + x, 'x') 
'fffffb2e' 

>>> 



































为 了 以 不 同 的 进 制 转换 整数 字符 串 ， 简 单 的 使 用 带 有 进 制 的 int() 函数 即 可 : 

>>> int('4d2', 16) 

1234 

>>> int('10011010010', 2) 

1234 

讨论 

大 多 数 情况 下 处 理 二 进 制 、 八 进 制 和 十 六 进 制 整数 是 很 简单 的 。 只 要 记 住 这 些 转换 属于 
整数 和 其 对 应 的 文本 表示 之 间 的 转换 即 可 。 永 远 只 有 一 种 整数 类 型 

最 后 ， 使 用 八进制 的 程序 员 有 一 点 需要 注意 下 。 Python 指 定 八 进 制 数 的 语法 跟 其 他 语言 
稍 有 不 同 。 比 如 ， 如 果 你 像 下 面 这 样 指定 八进制 ， 会 出 现 语法 错误 : 





>>> import os 
>>> os.chmod('script.py', 0755) 
File "<stdin>", line 1 
os.chmod('script.py', 0755) 
^ 
SyntaxError: invalid token 
>>> 





需 确 保 八 进 制 数 的 前 缀 是 ee ， 就 像 下 面 这 样 : 


>>> os.chmod('script.py', 00755) 
>>> 


3.5 字 市 到 大 整数 的 打包 与 解 包 


问题 


你 有 一 个 字 节 字符 串 并 想 将 它 解 压 成 一 个 整数 。 或 者 ， 你 需要 将 一 个 大 整数 转换 为 一 个 字 

















假设 你 的 程序 需要 处 理 一 个 拥有 128 位 长 的 16 个 元 素 的 字 节 字符 串 。 比 如 ， 








data = b'\x@0\x124V\x00x\x90\xab\x00\xcd\xef\x01\x00#\xe04' 





为 了 将 bytes 解 析 为 整数 ， 使 用 int.from bytes() 方法 ， 并 像 下 面 这 样 指定 字 节 顺序 : 


>>> len(data) 

16 

>>> int.from_bytes(data, ‘little') 
69120565665751139577663547927894891008 
>>> int.from_bytes(data, ‘big') 
94522842520747284487117727783387188 
>>> 


为 了 将 一 个 大 整数 转换 为 一 个 字 节 字符 串 ， 使 用 int.to_bytes() 方法 ， 并 像 下 面 这 样 指 
EF BTU : 


>>> x = 94522842520747284487117727783387188 

>>> x.to_bytes(16, 'big') 
b*\x@@\x124V\x00x\x90\xab\x00\xcd\xef\x01\x00#\xe04' 
>>> x.to_bytes(16, ‘little') 
b'4\x@0#\x00\x01\xef\xcd\x00\xab\x90x\x8@0V4\x12\xe0' 
>>> 


讨论 





大 整数 和 字 节 字符 串 之 间 的 转换 操作 并 不 常见 。 然而， 在 一 些 应 用 领域 有 时 候 也 会 出 
现 ， 比 如 密码 学 或 者 网 络 。 例 如 ，IPv6 网 络 地 址 使 用 一 个 128 位 的 整数 表示 。 如 果 你 要 从 
一 个 数据 记录 中 提取 这 样 的 值 的 时 候 ， 你 就 会 面 对 这 样 的 问题 。 


作为 一 种 蔡 代 方案 ， 你 可 能 想 使 用 6.11 小 节 中 所 介绍 的 struct 模块 来 解压 字 节 。 这 样 也 
行伍 是， 下 这 利用 [ER | BORER FA AMAR. 因此 ， 你 可 能 想 解 压 
多 个 字 节 串 并 将 结果 合并 为 最 终 的 结果 ， 就 像 下 面 这 样 : 





>>> data 
b'\x@@\x124V\x0@@x\x90\xab\x@0\xcd\xeFf\x01\x00#\x004 ' 
>>> import struct 

>>> hi, lo = struct.unpack('>QQ', data) 

>>> (hi << 64) + lo 
94522842520747284487117727783387188 

>>> 





字 节 顺序 规则 (little 或 big) 仅 仅 指定 了 构建 整数 时 的 字 贡 的 低位 高 位 排列 方式 。 我 们 从 下 
面 精心 构造 的 16 进 制 数 的 表示 中 可 以 很 容易 的 看 出 来 : 








>>> x = 0x01020304 

>>> x.to_bytes(4, 'big') 

b ' \x01\x02\x03\x04' 

>>> x.to_bytes(4, 'little') 
b ' \x04\x03\x02\x01' 

>>> 


如 果 你 试 着 将 一 个 整数 打包 为 字 节 字符 串 ， 那 么 它 就 不 合适 了 ， 你 会 得 到 一 个 错误 。 如 
果 需 要 的 话 ， 你 可 以 使 用 int.bit_length() 方法 来 决定 需要 多 少 字 节 位 来 存储 这 个 值 。 





>>> x = 523 ** 23 
>>> X 
335381300113661875107536852714019056160355655333978849017944067 
>>> x.to_bytes(16, ‘little') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
OverflowError: int too big to convert 
>>> x. bit_length() 
208 
>>> nbytes, rem = divmod(x.bit_length(), 8) 
>>> if rem: 

. nbytes += 1 


>>> 

>>> x.to_bytes(nbytes, ‘little') 
b'\x@3X\xf1\x82iT\x96\xac\xc7c\x16\xf3\xb9\xcf...\xdg' 
>>> 


3.6 复数 的 数学 运算 


问题 





你 写 的 最 新 的 网 络 认证 方案 代码 遇 到 了 一 个 难题 ， 并 且 你 唯一 的 解决 办 法 就 是 使 用 复数 空 
间 。 再 或 者 是 你 仅仅 需要 使 用 复数 来 执行 一 些 计算 操作 。 





解决 方案 
复数 可 以 用 使 用 函数 complex(real, imag) 或 者 是 带 有 后 纵 j 的 浮 点 数 来 指定 。 比 如 : 


>>> a complex(2, 4) 


3 - 5j 


>>> b 
>>> a 
(2+4j) 
>>> b 
(3-53) 
>>> 


对 应 的 实 部 、 虚 部 和 共 轿 复数 可 以 很 容易 的 获取 。 就 像 下 面 这 样 : 


>>> a.real 

2.0 

>>> a. imag 

4.0 

>>> a.conjugate() 
(2-43) 

>>> 


另外 ， 所 有 和 常见 的 数学 运算 都 可 以 工作 : 


>>> a + b 

(5-11) 

>>> a * b 

(26+2j) 

>>> a / b 
(-0.4117647058823529+0.6470588235294118j) 
>>> abs(a) 

4.47213595499958 

>>> 





如 果 要 执行 其 他 的 复数 函数 比如 正弦 、 余 弦 或 平方 根 ， 使 用 cmath 模块 : 


>>> import cmath 

>>> cmath.sin(a) 
(24.83130584894638-11.356612711218174j ) 
>>> cmath.cos(a) 
(-11.36423470640106-24.814651485634187] ) 
>>> cmath.exp(a) 
(-4.829809383269385-5.5920560936409816j ) 
>>> 




















J 


Python 中 大 部 分 与 数学 相关 的 模块 都 能 处 理 复数 。 比如 如 果 你 使 用 numpy ， 可 以 很 容易 
的 构造 一 个 复数 数组 并 在 这 个 数组 上 执行 各 种 操作 : 





>>> import numpy as np 

>>> a = np.array([2+3j, 4+5j, 6-7j, 8+9j]) 

>>> a 

array([ 2.+3.j, 4.+5.j, 6.-7.j, 8.+9.j]) 

>>> a + 2 

array([ 4.+3.j, 6.+5.j, 8.-7.j, 10.+9.j]) 

>>> np.sin(a) 

array([ 9.15449915 -4.16890696j, -56.16227422 -48.50245524j, 
-153.20827755-526.47684926j, 4008.42651446-589.49948373j]) 

>>> 


Python 的 标准 数学 函数 确实 情况 下 并 不 能 产生 复数 值 ， 因 此 你 的 代码 中 不 可 能 会 出 现 复 
数 返回 值 。 比 如 : 








>>> import math 
>>> math.sqrt(-1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: math domain error 
>>> 





如 果 你 想 生成 一 个 复数 返回 结果 ， 你 必须 显示 的 使 用 cmath 模块 ， 或 者 在 某 个 支持 复数 
的 库 中 声明 复数 类 型 的 使 用 。 比 如 : 


>>> import cmath 
>>> cmath.sqrt(-1) 


1j 
3.7 无 穷 大 与 NaN 
问题 





你 想 创 建 或 测试 正 无 穷 、 负 无 穷 或 NaN( 非 数字 ) 的 浮 点 数 。 


解决 方案 


Python 并 没有 特殊 的 语法 来 表示 这 些 特殊 的 浮 点 值 ， 但 是 可 以 使 用 float() 来 创建 它 
们 o 比如 : 





a = float('inf') 
>>> b = float('-inf') 

c 

a 


float('nan') 


为 了 测试 这 些 值 的 存在 ， 使 用 math.isinf() 和 math.isnan() 函数 。 比如 : 


>>> math.isinf(a) 
True 
>>> math.isnan(c) 
True 
>>> 


想 了 解 更 多 这 些 特殊 浮 点 值 的 信息 ， 可 以 参考 IEEE 754 规 范 。 然而 ， 也 有 一 些 地 方 需要 你 
特别 注意 ， 特 别 是 跟 比较 和 操作 符 相 关 的 时 候 。 





无 穷 大 数 在 执行 数学 计算 的 时 候 会 传播 ， 比 如 : 


>>> a = float('inf') 
>>> a + 45 


但 是 有 些 操作 时 未 定义 的 并 会 返回 一 个 NaN 结 果 。 比 如 : 


>>> a = float('inf') 
>>> a/a 

nan 

>>> b = float('-inf') 
>>> a +b 

nan 

>>> 


NaN 值 会 在 所 有 操作 中 传播 ， 而 不 会 产生 异常 。 比 如 : 


>>> c = float('nan') 
>>> C + 23 


>> ¢ f-2 
>>> G * 2 


>>> math.sqrt(c) 


NaN 值 的 一 个 特别 的 地 方 时 它们 之 间 的 比较 操作 总 是 返回 False。 比 如 : 





>>> c = float('nan') 
>>> d = float('nan') 
>>> C =s 

False 

>>> c is d 

False 

>>> 





由 于 这 个 原因 ， 测 试 一 个 NaN 值 得 唯一 安全 的 方法 就 是 使 用 nath.isnan() ， 也 就 是 上 面 
演示 的 那样 。 


有 时 候 程序 员 想 改变 Python 默认 行为 ， 在 返回 无 穷 大 或 NaN 结 果 的 操作 中 抛 出 异常 。 
fpectl 模块 可 以 用 来 改变 这 种 行为 ， 但 是 它 在 标准 的 Python 构建 中 并 没有 被 启用 ， 它 是 
平台 相关 的 ， 并 且 针 对 的 是 专家 级 程序 员 。 可 以 参考 在 线 的 Python 文档 获取 更 多 的 细 
To 











3.8 47 BUS 
问题 


你 进入 时 间 机 器 ， 突 然 发 现 你 正在 做 小 学 家 庭 作 业 ， 并 涉及 到 分 数 计算 问题 。 或 者 你 可 
能 需要 写 代码 去 计算 在 你 的 木工 工厂 中 的 测量 值 。 





fractions 模块 可 以 被 用 来 执行 包含 分 数 的 数学 运算 。 比 如 : 


>>> from fractions import Fraction 
>>> a = Fraction(5, 4) 

>>> b = Fraction(7, 16) 

>>> print(a + b) 

27/16 

>>> print(a * b) 

35/64 


>>> # Getting numerator/denominator 
>>> c =a *b 

>>> c.numerator 

35 

>>> c.denominator 

64 


>>> # Converting to a float 
>>> Float(c) 
0.546875 


>>> # Limiting the denominator of a value 
>>> print(c.limit_denominator(8) ) 
4/7 


# Converting a float to a fraction 
>>> X = 3.75 

y = Fraction(*x.as_integer_ratio()) 
>>> y 
Fraction(15, 4) 
>>> 





在 大 多 数 程序 中 一 般 不 会 出 现 分 数 的 计算 问题 ， 但 是 有 时 候 还 是 需要 用 到 的 。 比如， 在 
一 个 允许 接受 分 数 形式 的 测试 单位 并 以 分 数 形式 执行 运算 的 程序 中 ， 直接 使 用 分 数 可 以 
减少 手动 转换 为 小 数 或 浮 点 数 的 工作 。 











3.9 大 型 数组 运算 


问题 





你 需要 在 大 数据 集 (比如 数组 或 网 格 ) 上 面 执行 计算 。 


涉及 到 数组 的 重量 级 运算 操作 ， 可 以 使 用 Numpy Æo Numpy 的 一 个 主要 特征 是 它 会 给 
Python 提供 一 个 数组 对 象 ， 相 比 标准 的 Python 列表 而 已 更 适合 用 来 做 数学 运算 。 下 面 是 
一 个 简单 的 小 例子 ， 向 你 展示 标准 列表 对 象 和 nummy 数组 对 象 之 间 的 差别 : 





# Python Lists 
$>>. X= [i; 25. 3, 4] 

y = (Se 6 的 

x 


Ls 25 35. 45. Ds. 24. 35, 44 
>>> x + 10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only concatenate list (not "int") to list 
>>> xX + y 
[1, 2, 3, 4, 5, 6, 7, 8] 


>>> # Numpy arrays 

>>> import numpy as np 

>>> ax = np.array([1, 2, 3, 4]) 
>>> ay = np.array([5, 6, 7, 8]) 
>>> ax * 2 

array([2, 4, 6, 8]) 

>>> ax + 10 

array([11, 12, 13, 14]) 

>>> ax + ay 

array([ 6, 8, 10, 12]) 

>>> ax * ay 

array([ 5, 12, 21, 32]) 

>>> 


正如 所 见 ， 两 种 方案 中 数组 的 基本 数学 运算 结果 并 不 相同 。 特 别 的 ， Numpy 中 的 标量 运 
算 (比如 ax * 2 或 ax + 10 ) 会 作用 在 每 一 个 元 素 上 。 另外 ， 当 两 个 操作 数 都 是 数组 的 时 
候 执 行 元 素 对 等 位 置 计算 ， 并 最 终生 成 一 个 新 的 数组 。 








对 整个 数组 中 所 有 元 素 同时 执行 数学 运算 可 以 使 得 作用 在 整个 数组 上 的 函数 运算 简单 而 又 
快速 。 比如， 如 果 你 想 计 算 多 项 式 的 值 ， 可 以 这 样 做 : 





>>> def F(x): 
。 return 3*x**2 - 2*x + 7 
>>> f(ax) 
array([ 8, 15, 28, 47]) 
>>> 





Numpy 还 为 数组 操作 提供 了 大 量 的 通用 函数 ， 这 些 函 数 可 以 作为 math 模块 中 类 似 函 数 的 
替代 。 比如 : 





>>> np.sqrt(ax) 

array([ 1. , 1.41421356, 1.73205081, 2. ]) 

>>> np.cos(ax) 

array([ @.54030231, -@.41614684, -@.9899925 , -@.65364362]) 
>>> 


使 用 这 些 通用 函数 要 比 循环 数组 并 使 用 math 模块 中 的 函数 执行 计算 要 快 的 多 。 因此， 只 
要 有 可 能 的 话 尽量 选择 Numpy 的 数组 方案 。 








底层 实现 中 ， Numpy 数组 使 用 了 C 或 者 Fortran 语 言 的 机 制 分 配 内 存 。 也 就 是 说 ， 它 们 是 
一 个 非常 大 的 连续 的 并 由 同类 型 数据 组 成 的 内 存 区 域 。 所 以 ， 你 可 以 构造 一 个 比 普通 
Python 列表 大 的 多 的 数组 。 比如 ， 如 果 你 想 构 造 一 个 10,000*10,000 的 浮 点 数 二 维 网 格 ， 
很 轻松 : 


> 





>>> grid = np.zeros(shape=(10000,10000), dtype=float) 


>>> grid 
array([[ Oss @., Oss ..., Ory @., @.], 
[ @., @., @., ..., Osa @., @.], 
[ @., @., @., ..., Os @., Oels 


[ 0., 0., O., ..., O., O., 0.], 
[ 0., O., O., ..., O., O., 0.]，, 
[ 0., O., O., savy O., O., 0.]]) 


所 有 的 普通 操作 还 是 会 同时 作用 在 所 有 元 素 上 : 


>>> grid 


>>> grid 
array([[ 


[ 10 
[ 10 
[ 10 
[ 10 
[ 10 


3 


2 


10., 
a oy 
ig? 10., 


2 


>>> np.sin(grid) 
array([[-8.54402111, 


[-0. 


>>> 


关于 Numpy 有 一 点 需要 特别 的 主意 ， 那 就 是 它 扩 展 Python 列 表 的 索引 功能 - 特别 是 对 于 
EBA. 为 了 说 明 清 楚 ， 先 构造 一 个 简单 的 二 旨 


BY 














. 54402111, 


54402111, 


-54402111, 


-@.54402111, 


54402111, -@. 
-@.54402111, 
-54402111, -0. 


-@.54402111, 


-0 
-@.54402111, 
-@. 
-@.54402111, 
-0. 
-@.54402111, 


. 54402111, 


-0.54402111, 

-0.54402111], 
54402111, 
-0.54402111], 
54402111, 
-0.54402111], 


-0.54402111], 
54402111, 
-0.54402111], 
54402111, 


10., 10.], 


og 10: 15 
., 10.], 


s5 G2 J 
., 10.], 
., 10 


-11) 


-0.54402111, 


-0.54402111, 


-0.54402111, 


-0.54402111, 


-0.54402111, 


-0.54402111, 


-0.54402111]]) 

















-0.54402111, 


. 54402111, 


.54402111, 


. 54402111, 
. 54402111, 


.54402111, 


数组 并 试 着 做 些 试验 





>>> a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]) 
>>> a 

array([[ 1, 2, 3, 4], 

[ 5, 6, 7, 8], 

[ 9, 10, 11, 12]]) 


>>> # Select row 1 
>>> a[1] 
array([5, 6, 7, 8]) 


>>> # Select column 1 
>>> a[:,1] 
array([ 2, 6, 10]) 


>>> # Select a subregion and change it 
>>> L135 1:3] 
array([[ 6, 7], 
[10, 11]]) 
>>> a[1:3, 1:3] += 10 
>>> a 
array([[ 1, 2, 3, 4], 
[ 5, 16, 17, 8], 
[ 9, 20, 21, 12]]) 


>>> # Broadcast a row vector across an operation on all rows 
>>> a + [100, 101, 102, 103] 
array([[101, 103, 105, 107], 
[105, 117, 119, 111], 
[109, 121, 123, 115]]) 
>>> a 
array([[ 1, 2, 3, 4], 
[ 5; 16; 17, 8], 
[ 9, 20, 21, 12]]) 


>>> # Conditional assignment on an array 
>>> np.where(a < 10, a, 10) 
array([[ 1, 2, 3, 4], 
[ 5, 10, 10, 8], 
[ 9, 10, 10, 10]]) 
>>> 








Numpy 是 Python 领域 中 很 多 科学 与 工程 库 的 基础 ， 同 时 也 是 被 广泛 使 用 的 最 大 最 复杂 的 
模块 。 即便 如 此 ， 在 刚 开 始 的 时 候 通 过 一 些 简 单 的 例子 和 玩具 程序 也 能 帮 有 我 们 完成 一 些 
有 趣 的 事情 。 





通常 我 们 导入 NumPy 模块 的 时 候 会 使 用 语句 import numpy as np 。 这样 的 话 你 就 不 用 再 
你 的 程序 里 面 一 壳 吉 的 裔 入 numpy ， 只 需要 输入 np 就 行 了 ， 节 省 了 不 少时 间 。 























如 果 想 获取 更 多 的 信息 ， 你 当然 得 去 numpy AWET, WAE: 
http://www.numpy.org 


3.10 和 矩阵 与 线性 代数 运算 
问题 


你 需要 执行 矩阵 和 线性 代数 运算 ， 比 如 和 矩阵 乘法 、 寻 找 行 列 式 、 求 解 线性 方程 组 等 等 。 





解决 方案 
Numpy 库 有 一 个 矩阵 对 象 可 以 用 来 解决 这 个 问题 。 


和 矩 阵 类 似 于 3.9 小 节 中 数组 对 象 ， 但 是 遵循 线性 代数 的 计算 规则 。 下 面 的 一 个 例子 展示 了 
和 矩阵 的 一 些 基本 特性 : 


>>> import numpy as np 
>>> m = np.matrix([[1,-2,3],[0,4,5],[7,8,-9]]) 
>>> m 
matrix([[ 1, -2, 3], 
[ 8, 4, 5], 
[ 7, 8, -9]]) 


>>> # Return transpose 
>>> m.T 
matrix([[ 1, ©, 7], 
[-2, 4, 8], 
[ 3, 5, -9]]) 


>>> # Return inverse 

>>> m.I 

matrix([[ @.33043478, -0.02608696, 0.09565217], 
[-9.15217391, @.13043478, 0.02173913], 
[ @.12173913, @.09565217, -@.0173913 ]]) 


>>> # Create a vector and multiply 
>>> v = np.matrix([[2],[3],[4]]) 


>>> V 
matrix([[2], 
[3], 
[4]]) 
>>> m*v 
matrix([[ 8], 
[32], 
[ 2]]) 


b> 


可 以 在 numpy.linalg 子 包 中 找到 更 多 的 操作 函数 ， 比 如 : 


>>> import numpy.linalg 


>>> # Determinant 
>>> numpy.linalg.det(m) 
-229.99999999999983 


>>> # Eigenvalues 
>>> numpy.linalg.eigvals(m) 
array([-13.11474312, 2.75956154, 6.35518158]) 


>>> # Solve for x in mx = v 
>>> x = numpy.linalg.solve(m, v) 
>>> x 
matrix([[ @.96521739], 
[ @.17391304], 


[ @.46086957]]) 
25> Mo eK 
matrix([[ 2.], 

[ 3.]， 

[ 4.]]) 
>>> Vv 
matrix([[2], 

[3], 

[4]]) 
>>> 

讨论 


很 显然 线性 代数 是 个 非常 大 的 主题 ， 已 经 超出 了 本 书 能 讨论 的 范围 。 但 是 ， 如 果 你 需要 
操作 数组 和 向 量 的 话 ， NumPy 是 一 个 不 错 的 入 口 点 。 可 以 访问 NumPy 官网 
http://www.numpy.org 获取 更 多 信息 。 





3.11 随机 选择 
问题 


你 想 从 一 个 序列 中 随机 抽取 若干 元 素 ， 或 者 想 生 成 几 个 随机 数 。 


random 模块 有 大 量 的 函数 用 来 产生 随机 数 和 随机 选择 元 素 。 比如 ， 要 想 从 一 个 序列 中 随 
机 的 抽取 一 个 元 素 ， 可 以 使 用 random.choice() : 








import random 


values = [1, 2, 3, 4, 


random.choice(values) 


random.choice(values) 


random.choice(values) 


random.choice(values) 


random.choice(values) 


5, 6] 


为 了 提取 出 N 个 不 同 元 素 的 样本 用 来 做 进一步 的 操作 ， 可 以 使 用 random.sample() : 


>>> 
[6, 
>>> 
[4, 
>>> 
[4, 
>>> 
[5， 
>>> 


random.sample(values, 
2] 
random.sample(values, 
3] 
random.sample(values, 
3, 1] 
random.sample(values, 
4, 1] 


2) 


2) 


3) 


3) 





如 果 你 仅仅 只 是 想 打 乱 序列 中 元 素 的 顺序 ， 可 以 使 用 random.shuffle() : 


>>> 
>>> 
[2, 
>>> 
>>> 
[3, 
>>> 


random.shuffle(values) 
values 

4, 6, 5, 3, 1] 
random.shuffle(values) 
values 

5, 2, 1, 6, 4] 


生成 随机 整数 ， 请 使 用 random.randint() : 


>>> random. 


>>> random 


>>> random. 


>>> random. 


>>> random 


>>> random 


randint(@,10) 


-randint(@,10) 


randint(@,10) 


randint(@,10) 


-randint(@,10) 


-randint(@,10) 


为 了 生成 0 到 1 范围 内 均匀 分 布 的 浮 点 数 ， 使 用 random. random() 


>>> random. 


random() 


@.9406677561675867 


>>> random. 


random() 


@.133129581343897 


>>> random. 


random() 


@.4144991136919316 


>>> 


如 果 要 获取 N 位 随机 位 (二 进入 





症 ) 的 整数 ， 使 用 random. getrandbits() 


>>> random.getrandbits (200) 
335837000776573622800628485064121869519521710558559406913275 


>>> 





random 模块 使 用 Mersenne Twister 算法 来 计算 生成 随机 数 。 这 是 一 个 确定 性 算法 ， 
你 可 以 通过 random.seed() 函数 修改 初始 化 种 子 。 比 如 : 


random.seed() # Seed based on system time or os.urandom() 


random.seed(12345) # Seed based on integer given 
random.seed(b'bytedata') # Seed based on byte data 


但 


=! 
KE 





除了 上 述 介绍 的 功能 ，random 模 块 还 包含 基于 均匀 分 布 、 高 斯 分 布 和 其 他 分 布 的 随机 数 
生成 函数 。 比如 ， random.uniform() 计算 均匀 分 布 随机 数 ， random.gauss() 计算 正 态 分 
布 随 机 数 。 对 于 其 他 的 分 布 情况 请 参考 在 线 文 档 。 


在 random 模块 中 的 函数 不 应 该 用 在 和 密码 学 相关 的 程序 中 。 如 果 你 确实 需要 类 似 的 功 
能 ， 可 以 使 用 ssl 模 块 中 相应 的 函数 。 比如 ， ss1.RAND_bytes() 可 以 用 来 生成 一 个 安全 的 
随机 字 节 序列 。 


3.12 基本 的 日 期 与 时 间 转 换 
问题 


你 需要 执行 简单 的 时 间 转 换 ， 比 如 天 到 秒 ， 小 时 到 分 钟 等 的 转换 。 





为 了 执行 不 同时 间 单 位 的 转换 和 计算 ， 请 使 用 datetime 模块 。 比 如 ， 为 了 表示 一 个 时 间 
段 ， 可 以 创建 一 个 timedelta 实例 ， 就 像 下 面 这 样 : 


>>> from datetime import timedelta 
>>> a = timedelta(days=2, hours=6) 
b = timedelta(hours=4.5) 
>>> c =atbdb 
c.days 


>>> c.seconds 
>>> c.seconds / 3600 


>>> c.total_seconds() / 3600 


如 果 你 想 表示 指定 的 日 期 和 时 间 ， 先 创建 一 个 datetime 实例 然后 使 用 标准 的 数学 运算 来 
操作 它们 。 比 如 : 


>>> from datetime import datetime 
>>> a = datetime(2012, 9, 23) 

>>> print(a + timedelta(days=10) ) 
2012-10-03 00:00:00 

>>> 

>>> b = datetime(2012, 12, 21) 
>>> d=b-a 

>>> d.days 

89 

>>> now = datetime.today() 

>>> print (now) 

2012-12-21 14:54:43 .094063 

>>> print(now + timedelta(minutes=1@) ) 
2012-12-21 15:04:43 .094063 

>>> 














在 计算 的 时 候 ， 需 要 注意 的 是 datetime SA SAFE. EAN: 








>>> a = datetime(2012, 3, 1) 
>>> b = datetime(2012, 2, 28) 
>>> a-b 
datetime.timedelta(2) 

>>> (a - b).days 

2 

>>> c = datetime(2013, 3, 1) 
>>> d = datetime(2013, 2, 28) 
>>> (c - d).days 

1 

>>> 

















对 大 多 数 基本 的 日 期 和 时 间 处 理 问 题 ， datetime 模块 以 及 足够 了 。 如 果 你 需要 执行 更 加 
复杂 的 日 期 操作 ， 比 如 处 理 时 区 ， 模 糊 时 间 范 围 ， 节 假日 计算 等 等 ， 可 以 考虑 使 用 
dateutil 模 块 























许多 类 似 的 时 间 计 算 可 以 使 用 dateutil.relativedelta() 函数 代替 。 但 是 ， 有 一 点 需要 注 
意 的 就 是 ， 它 会 在 处 理 月 份 (还 有 它们 的 天 数 差 距 ) 的 时 候 填 充 间 险 。 看 例子 最 清楚 : 




















>>> a = datetime(2012, 9, 23) 

>>> a + timedelta(months=1) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

TypeError: ‘months' is an invalid keyword argument for this function 
>>> 

>>> from dateutil.relativedelta import relativedelta 

>>> a + relativedelta(months=+1) 

datetime.datetime(2012, 10, 23, ©, @) 

>>> a + relativedelta(months=+4) 

datetime.datetime(2013, 1, 23, ©, @) 

>>> 

>>> # Time between two dates 

>>> b = datetime(2012, 12, 21) 

>>> d=b-a 

>>> d 
datetime.timedelta(89) 

>>> d = relativedelta(b, a) 
>>> d 
relativedelta(months=+2, days=+28) 
>>> d.months 

2 

>>> d.days 

28 

>>> 


3.13 计算 最 后 一 个 周 五 的 日 期 
问题 


你 需要 查找 星期 中 茶 一 天 最 后 出 现 的 日 期 ， 比 如 星期 五 。 





Python 的 datetime 模块 中 有 工具 函数 和 类 可 以 帮助 你 执行 这 样 的 计算 。 下 面 是 对 类 似 这 
样 的 问题 的 一 个 通用 解决 方案 : 


#!/usr/bin/env python 

# -*- encoding: utf-8 -*- 
Topic: 最 后 的 周 五 

Desc 


from datetime import datetime, timedelta 


weekdays = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 
"Friday', ‘Saturday’, ‘Sunday’ ] 


def get_previous_byday(dayname, start_date=None): 
if start_date is None: 
start_date = datetime.today() 
day_num = start_date.weekday() 
day_num_target = weekdays.index(dayname) 
days_ago = (7 + day_num - day_num_target) % 7 
if days_ago == 
days_ago = 7 
target_date = start_date - timedelta(days=days_ ago) 
return target_date 


在 交互 式 解释 器 中 使 用 如 下 : 


>>> datetime.today() # For reference 

datetime.datetime(2012, 8, 28, 22, 4, 30, 263076) 

>>> get_previous_byday('Monday' ) 

datetime.datetime(2012, 8, 27, 22, 3, 57, 29045) 

>>> get_previous_byday('Tuesday') # Previous week, not today 
datetime.datetime(2012, 8, 21, 22, 4, 12, 629771) 

>>> get_previous_byday('Friday') 

datetime.datetime(2012, 8, 24, 22, 5, 9, 911393) 

>>> 


可 选 的 start_date 参数 可 以 由 另外 一 个 datetime 实例 来 提供 。 比 如 : 


>>> get_previous_byday('Sunday', datetime(2012, 12, 21)) 
datetime.datetime(2012, 12, 16, ©, @) 
>>> 


讨论 














上 面 的 算法 原理 是 这 样 的 : 先 将 开始 日 期 和 目标 日 期 映射 到 星期 数组 的 位 置 上 (星期 一 索 
引 为 0)， 然后 通过 模 运 算计 算出 目标 日 期 要 经 过 多 少 天 才能 到 达 开 始 日 期 。 然 后 用 开始 日 
期 减 去 那个 时 间 差 即 得 到 结果 日 期 。 




















如 果 你 要 像 这 样 执行 大 量 的 日 期 计算 的 话 ， 你 最 好 安装 第 三 方 包 python-dateutil 来 代 
替 。 比 如 ， 下 面 是 是 使 用 dateutil 模块 中 的 relativedelta() 函数 执行 同样 的 计算 : 


>>> from datetime import datetime 

>>> from dateutil.relativedelta import relativedelta 
>>> from dateutil.rrule import * 

>>> d = datetime.now() 

>>> print(d) 

2012-12-23 16:31:52;718111 


>>> # Next Friday 

>>> print(d + relativedelta(weekday=FR) ) 
2012-12-28 16:31:52.718111 

>>> 


>>> # Last Friday 
>>> print(d + relativedelta(weekday=FR(-1))) 


2012-12-21 16:31:52.718111 
>>> 


3.14 计算 当前 月 份 的 日 期 范围 


问题 








你 的 代码 需要 在 当前 月 份 中 循环 每 一 天 ， 想 找到 一 个 计算 这 个 日 期 范围 的 高 效 方法 。 


解决 方案 





在 这 样 的 日 期 上 循环 并 需要 事先 构造 一 个 包含 所 有 日 期 的 列表 。 你 可 以 先 计算 出 开始 日 
期 和 结束 日 期 ， 然 后 在 你 步 进 的 时 候 使 用 | datetime timedsita | 对 象 递增 这 个 日 期 变量 即 
可 。 








下 面 是 一 个 接受 任意 datetime 对 象 并 返回 一 个 由 当前 月 份 开始 日 和 下 个 月 开始 日 组 成 的 
元 组 对 象 。 


from datetime import datetime, date, timedelta 


import calendar 


def get_month_range(start_date=None): 
if start_date is None: 
start_date = date.today().replace(day=1) 
_, days_in_month = calendar.monthrange(start_date.year, start_date.month) 
end_date = start_date + timedelta(days=days_in_month) 
return (start_date, end_date) 











有 了 这 个 就 可 以 很 容易 的 在 返回 的 日 期 范围 上 面 做 循环 操作 了 : 


>>> a_day = timedelta(days=1) 
>>> first_day, last_day = get_month_range() 
>>> while first_day < last_day: 
print(first_day) 
first_day += a_day 


2012-08-01 
2012-08-02 
2012-08-03 
2012-08-04 
2012-08-05 
2012-08-06 
2012-08-07 
2012-08-08 
2012-08-09 
#... and so on... 





上 面 的 代码 先 计算 出 一 个 对 应 月 份 第 一 天 的 日 期 。 一 个 快速 的 方法 就 是 使 用 date 或 
datetime 对 象 的 replace() 方法 简单 的 将 days 属性 设置 成 1 即 可 。 replace) 方法 一 个 
好 处 就 是 它 会 创建 和 你 开始 传 入 对 象 类 型 相同 的 对 象 。 所 以 ， 如 果 输 入 参数 是 一 个 date 
实例 ， 那 么 结果 也 是 一 个 date 实例 。 同样 的 ， 如 果 输 入 是 一 个 datetime 实例 ， 那 么 你 
得 到 的 就 是 一 个 datetime 实例 。 


然后 ， 使 用 calendar.monthrange() 函数 来 找 出 该 月 的 总 天 数 。 任何 时 候 只 要 你 想 获 得 日 
历 信息 ， 那 么 calendar 模块 就 非常 有 用 了 。 monthrange() 函数 会 返回 包含 星期 和 该 月 天 
数 的 元 组 。 








一 旦 该 月 的 天 数 已 知 了 ， 那 么 结束 日 期 就 可 以 通过 在 开始 日 期 上 面 加 上 这 个 天 数 获 得 。 
有 个 需要 注意 的 是 结束 日 期 并 不 包含 在 这 个 日 期 范围 内 (事实 上 它 是 下 个 月 的 开始 日 期 )。 
这 个 和 Python 的 slice 与 range 操作 行为 保持 一 致 ， 同 样 也 不 包含 结尾 。 














为 了 在 日 期 范围 上 循环 ， 要 使 用 到 标准 的 数学 和 比较 操作 。 比如 ， 可 以 利用 timedelta 
实例 来 递增 日 期 ， 小 于 号 < 用 来 检查 一 个 日 期 是 否 在 结束 日 期 之 前 。 





























ve 


理想 情况 下 ， 如 果 能 为 日 期 迭代 创建 一 个 同 内 置 的 range() PLP RBM ST o 
运 的 是 ， 可 以 使 用 一 个 生成 器 来 很 容易 的 实现 这 个 目标 : 








def date_range(start, stop, step): 
while start < stop: 
yield start 
start += step 


下 面 是 使 用 这 个 生成 器 的 例子 : 


>>> for d in date_range(datetime(2012, 9, 1), datetime(2012,10,1), 
timedelta(hours=6) ): 
print(d) 


2012-09-01 00:00:00 
2012-09-01 06:00:00 
2012-09-01 12:00:00 
2012-09-01 18:00:00 
2012-09-02 00:00:00 
2012-09-02 06:00:00 





这 种 实现 之 所 以 这 么 简单 ， 还 得 归功 于 Python 中 的 日 期 和 时 间 能 够 使 用 标准 的 数学 和 比 
较 操 作 符 来 进行 运算 。 


3.15 字符 串 转 换 为 日 期 


问题 





你 的 应 用 程序 接受 字符 串 格 式 的 输入 ， 但 是 你 想 将 它们 转换 为 datetime 对 象 以 便 在 上 面 
执行 非 字符 串 操 作 。 


使 用 Python 的 标准 模块 datetime 可 以 很 容易 的 解决 这 个 问题 。 比 如 : 


>>> from datetime import datetime 

>>> text = '2012-09-20' 

>>> y = datetime.strptime(text, '%Y-%m-%d') 
>>> z = datetime.now() 

>>> diff =z - y 

>>> diff 

datetime.timedelta(3, 77824, 177393) 

>>> 


讨论 


datetime.strptime() 方法 支持 很 多 的 格式 化 代码 ， 比如 ‰ 代表 4 位 数 年 份 ， xm 代表 两 
位 数 月 份 。 还 有 一 点 值得 注意 的 是 这 些 格式 化 占 位 符 也 可 以 反 过 来 使 用 ， 将 日 期 输出 为 
指定 的 格式 字符 串 形式 。 




















比如 ， 假 设 你 的 代码 中 生成 了 一 个 datetime 对 象 ， 你 想 将 它 格式 化 为 漂亮 易 读 形式 后 放 
在 自动 生成 的 信件 或 者 报告 的 项 部: 





>>> Zz 
datetime.datetime(2012, 9, 23, 21, 37, 4, 177393) 
>>> nice_z = datetime.strftime(z, '%A %B %d, %Y') 
>>> nice_z 

"Sunday September 23, 2012" 

>>> 





还 有 一 点 需要 注意 的 是 ， strptime() 的 性 能 要 比 你 想象 中 的 差 很 多 ， 因 为 它 是 使 用 纯 

Python 实现 ， 并 且 必 须 处 理 所 有 的 系统 本 地 设置 。 如 果 你 要 在 代码 中 需要 解析 大 量 的 日 
期 并 且 已 经 知道 了 日 期 字符 串 的 确切 格式 ， 可 以 自己 实现 一 套 解析 方案 来 获取 更 好 的 性 

能 。 比 如， 如果 你 已 经 知道 所 以 日 期 格式 是 yyvvy-mm-pp ， 你 可 以 像 下 面 这 样 实现 一 个 解 
析 函 数 : 























from datetime import datetime 
def parse_ymd(s): 
year_s, mon_s, day_s = s.split('-') 
return datetime(int(year_s), int(mon_s), int(day_s)) 


























实际 测试 中 ， 这 个 函数 比 datetime.strptime() 快 7 倍 多 。 如 果 你 要 处 理 大 量 的 涉及 到 日 
期 的 数据 的 话 ， 那 么 最 好 考虑 下 这 个 方案 ! 


3.16 结合 时 区 的 日 期 操作 
问题 


你 有 一 个 安排 在 2012 年 12 月 21 日 早上 9:30 的 电话 会 议 ， 地 点 在 芝加哥 。 而 你 的 朋友 在 印 
度 的 班加罗尔 ， 那 么 他 应 该 在 当地 时 间 几 点 参加 这 个 会 议 呢 ? 


解决 方案 


对 几乎 所 有 涉及 到 时 区 的 问题 ， 你 都 应 该 使 用 pytz 模块 。 这 个 包 提供 了 Olson 时 区 数据 
库 ， 它 是 时 区 信息 的 事实 上 的 标准 ， 在 很 多 语言 和 操作 系统 里 面 都 可 以 找到 。 





pytz 模块 一 个 主要 用 途 是 将 datetime 库 创 建 的 简单 日 期 对 象 本 地 化 。 比如 ， 下 面 如 何 
表示 一 个 芝加哥 时 间 的 示例 : 





>>> from datetime import datetime 

>>> from pytz import timezone 

>>> d = datetime(2012, 12, 21, 9, 30, @) 
>>> print(d) 

2012-12-21 09:30:00 

>>> 


>>> # Localize the date for Chicago 
>>> central = timezone('US/Central') 
>>> loc_d = central.localize(d) 

>>> print(loc_d) 

2012-12-21 09:30:00-06:00 

>>> 








一 旦 日 期 被 本 地 化 了 ， 它 就 可 以 转换 为 其 他 时 区 的 时 间 了 。 为 了 得 到 班加罗尔 对 应 的 时 
间 ， 你 可 以 这 样 做 : 


>>> # Convert to Bangalore time 

>>> bang _d = loc_d.astimezone(timezone('Asia/Kolkata' )) 
>>> print(bang_d) 

2012-12-21 21:00:00+05:30 

>>> 


如 果 你 打算 在 本 地 化 日 期 上 执行 计算 ， 你 需要 特别 注意 夏令 时 转换 和 其 他 细节 。 比如 ， 
在 2013 年 ， 美 国标 准 夏令 时 时 间 开 始 于 本 地 时 间 3 月 13 日 凌晨 2:00( 在 那 时 ， 时 间 向 前 跳 
过 一 小 时 )。 如 果 你 正在 执行 本 地 计算 ， 你 会 得 到 一 个 错误 。 比 如 : 








>>> d = datetime(2013, 3, 10, 1, 45) 

>>> loc_d = central.localize(d) 

>>> print(loc_d) 

2013-03-10 01:45:00-06:00 

>>> later = loc_d + timedelta(minutes=30) 
>>> print(later) 

2013-03-10 @2:15:00-06:00 # WRONG! WRONG! 
>>> 








结果 错误 是 因为 它 并 没有 考虑 在 本 地 时 间 中 有 一 小 时 的 跳跃 。 为 了 修正 这 个 错误 ， 可 以 
使 用 时 区 对 象 normalize() 方法 。 比 如 : 


>>> from datetime import timedelta 

>>> later = central.normalize(loc_d + timedelta(minutes=30) ) 
>>> print(later) 

2013-03-10 03:15:00-05:00 

>>> 


讨论 























为 了 不 让 你 被 这 些 东 东 和 弄 的 尝 头 转向 ， 人 处 理 本 地 化 日 期 的 通常 的 策略 先 将 所 有 日 期 转换 为 
UTC 时 间 ， 并 用 它 来 执行 所 有 的 中 间 存 储 和 操作 。 比 如 : 














>>> print(loc_d) 

2013-03-10 01:45:00-06:00 

>>> utc_d = loc_d.astimezone(pytz.utc) 
>>> print(utc_d) 

2013-03-10 07:45:00+00:00 

>>> 


一 旦 转换 为 UTC， 你 就 不 用 去 担心 跟 夏 令 时 相关 的 问题 了 。 因 此 ， 你 可 以 跟 之 前 一 样 放 
心 的 执行 常见 的 日 期 计算 。 当 你 想 将 输出 变 为 本 地 时 间 的 时 候 ， 使 用 合适 的 时 区 去 转换 
下 就 行 了 。 比 如 : 





>>> later_utc = utc_d + timedelta(minutes=30) 
>>> print(later_utc.astimezone(central) ) 
2013-03-10 03:15:00-05:00 

>>> 


当 涉 及 到 时 区 操作 的 时 候 ， 有 个 问题 就 是 我 们 如 何 得 到 时 区 的 名 称 。 比如， 在 这 个 例子 
中 ， 我 们 如 何 知道 "Asia/Kolkata" 就 是 印度 对 应 的 时 区 名 呢 ? 为 了 查找 ， 可 以 使 用 ISO 
3166 国 家 代码 作为 关键 字 去 查阅 字典 pytz.country_timezones |o 比如 : 








>>> pytz.country timezones['IN'] 
['Asia/Kolkata'] 
>>> 


TE: 当 你 阅读 到 这 里 的 时 候 ， 有 可 能 pytz 模块 以 及 不 再 建议 使 用 了 ， 因 为 PEP431 提 出 
了 更 先进 的 时 区 文 持 。 但 是 这 里 谈 到 的 很 多 问题 还 是 有 参考 价值 的 (比如 使 用 UTC 日 期 的 
建议 等 )。 


第 四 章 : IAN ae E eae 


迭代 是 Python 最 强大 的 功能 之 一 。 初 看 起 来 ， 你 可 能 会 简单 的 认为 欠 代 只 不 过 是 处 理 序 
列 中 元 素 的 一 种 方法 。 然而， 绝 非 仅 仅 就 是 如 此 ， 还 有 很 多 你 可 能 不 知道 的 ， 比 如 创建 
你 自己 的 适 代 器 对 象 ， 在 itertools 模 块 中 使 用 有 用 的 和 代 模式 ， 构 造 生成 器 函数 等 等 。 这 
一 章 目 的 就 是 向 你 展示 跟 迭 代 有 关 的 各 种 常见 问题 。 























ar 


Contents: 
Al 手动 遍历 迭代 器 


问题 




















你 想 志 历 一 个 可 壕 代 对 象 中 的 所 有 元 素 ， 但 是 却 不 想 使 用 for 循 环 。 


解决 方案 














为 了 手动 的 遍历 可 迭代 对 象 ， 使 用 next() 函数 并 在 代码 中 捕获 stopIteration 异常 。 比 
如 ， 下 面 的 例子 手动 读 取 一 个 文件 中 的 所 有 行 : 








def manual_iter(): 
with open('/etc/passwd') as f: 
try: 
while True: 
line = next(f) 
print(line, end='') 
except StopIteration: 
pass 


通常 来 讲 ， stopIteration AKAMA. 然而， 如 果 你 手动 使 用 上 面 演 示 的 
next() 函数 的 话 ， 你 还 可 以 通过 返回 一 个 指定 值 来 标记 结尾 ， 比 如 none 。 下 面 是 示 
例 : 








with open('/etc/passwd') as f: 
while True: 
line = next(f) 
if line is None: 
break 
print(line, end='') 


讨论 














大 多 数 情况 下 ， 我 们 会 使 用 for 循环 语句 用 来 遍历 一 个 可 帮 代 对 象 。 但 是 ， 偶 尔 也 需要 
对 达 代 做 更 加 精确 的 控制 ， 这 时 候 了 解 底层 迭代 机 制 就 显得 尤为 重要 了 。 








下 面 的 交互 示例 癌 我 们 演示 了 和 迭代 期 间 所 发 生 的 基本 细 记 : 


>>> items = [1, 2, 3] 
>>> # Get the iterator 
>>> it = iter(items) # Invokes items. __iter__() 
>>> # Run the iterator 
>>> next(it) # Invokes it.__next__() 
1 
>>> next(it) 
2 
>>> next(it) 
3 
>>> next(it) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 
>>> 


AS TEBE BORLA TS ERA IE ARS PARR, HITE RG EAE AS IIS A OL 
制 。 所 以 确保 你 已 经 把 这 章 的 内 容 牢 牢记 在 心中 。 











4.2 代理 迭代 


问题 





你 构建 了 一 个 自 定义 容器 对 象 ， 里 面包 含有 列表 、 元 组 或 其 他 可 达 代 对 象 。 你 想 直 接 在 
你 的 这 个 新 容器 对 象 上 执行 兴 代 操作 。 

















实际 上 你 只 需要 定义 一 个 ite 0O Fi, RHEE TE CEA as AT RE E 





class Node: 
def __init__(self, value): 
self._value = value 
self. children = [] 


def _repr__(self): 
return 'Node({!r})'.format(self. value) 


def add_child(self, node): 
self. _children.append(node) 


def __iter__(self): 
return iter(self._ children) 


# Example 
if name == ' main _' 
root = Node(0) 
child1 = Node(1) 
child2 = Node(2) 
root.add_child(child1) 
root.add_child(child2) 
# Outputs Node(1), Node(2) 
for ch in root: 
print(ch) 


在 上 面 代码 中 ， ite O 方法 只 是 简单 的 将 迭代 请 求 传递 给 内 部 的 children 属性 。 


讨论 


Python 的 迭代 器 协议 需要 iter O 方法 返回 一 个 实现 了 net O 方法 的 迭代 器 对 


象 。 如果 你 只 是 近代 遍历 其 他 容器 的 内 容 ， 你 无 须 担心 底层 是 怎样 实现 的 。 你 所 要 做 的 
RENE TIE [Ni BE o 














这 里 的 itero 函数 的 使 用 简化 了 代码 ， iter(s) 只 是 简单 的 通过 调用 s. iter () 方 
法 来 返回 对 应 的 迭代 器 对 象 ， 就 跟 len(s) 会 调用 si len 0) 原理 是 一 样 的 。 




















4.3 使 用 生成 器 创建 新 的 达 代 模式 


问题 


你 想 实 现 一 个 自 定 义 迭 代 模 式 ， 跟 普通 的 内 置 函数 比如 range() , reversed() 不 一 样 。 


解决 方案 


如 果 你 想 实现 一 种 新 的 迭代 模式 ， 使 用 一 个 生成 器 函数 来 定义 它 。 下面 是 一 个 生产 某 个 
YEE AFP AAS AE aa: 


def frange(start, stop, increment): 
x = start 
while x < stop: 
yield x 
x += increment 


为 了 使 用 这 个 函数 ， PRAT VA FA for FAIR AE Be E SE ER PY TR RT HAY PHA LL 
如 sum() , list() 等 )。 示 例如 下 : 


>>> for n in frange(@, 4, ©.5): 
print(n) 


U OU OU Ou 


>>> list(frange(@, 1, @.125)) 
[@, @.125, @.25, 0.375, 0.5, 0.625, 0.75, @.875] 


讨论 





一 个 函数 中 需要 有 一 个 yield 语句 即 可 将 其 转换 为 一 个 生成 器 。 跟 普通 函数 不 同 的 是 ， 
生成 器 只 能 用 于 壕 代 操作 。 下面 是 一 个 实验 ， 向 你 展示 这 样 的 函数 底层 工作 机 制 : 








>>> def countdown(n): 
print('Starting to count from’, n) 
while n > @: 
yield n 
n -= 
print('Done!') 


>>> # Create the generator, notice no output appears 
>>> c = countdown(3) 

>>> G 

<generator object countdown at 6x1666a6af6> 


>>> # Run to first yield and emit a value 
>>> next(c) 

Starting to count from 3 

3 


>>> # Run to the next yield 
>>> next(c) 
2 


>>> # Run to next yield 
>>> next(c) 
1 


>>> # Run to next yield (iteration stops) 
>>> next(c) 
Done! 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
StopIteration 
>>> 


ASAE Ga PR SE RE TIE E R R TD ET NE BA next 操作 。 一 旦 生成 器 函数 返 
PDE, ERIE. TEE CA A EA fori alae A oy Ab eS, Hr DRTC ia 
担心 。 























4.4 SEIMIE TR AS WL 
问题 


你 想 构 建 一 个 能 支持 兴 代 操作 的 自 定义 对 象 ， 并 希望 找到 一 个 能 实现 达 代 协议 的 简单 方 
ae 


目前 为 止 ， eA A el 在 4.2 小 节 中 ， 
使 用 Node 类 来 表示 树 形 数据 结构 。 你 可 能 想 实现 一 个 以 深度 优先 方式 遍历 树 形 节点 的 生 
成 器 。 下 面 是 代码 示例 : 














class Node: 
def __init__(self, value): 
self. value = value 
self._children = [] 


def _repr__(self): 
return 'Node({!r})'.format(self. value) 


def add_child(self, node): 
self. _children.append(node) 


def __iter__(self): 
return iter(self._ children) 


def depth_first(self): 
yield self 
for c in self: 
yield from c.depth_first() 


# Example 

if __name__ == '__main__ 
root = Node(@) 
child1 = Node(1) 
child2 = Node(2) 
root.add_child(child1) 
root.add_child(child2) 
child1.add_child(Node(3)) 
child1.add_child(Node(4)) 
child2.add_child(Node(5)) 


for ch in root.depth_first(): 
print(ch) 
# Outputs Node(@), Node(1), Node(3), Node(4), Node(2), Node(5) 


在 这 段 代 码 中 ， depth_first() 方法 简单 直观 。 它 首先 返回 自己 本 身 并 迭代 每 一 个 子 节点 
并 通过 调用 子 节点 的 depth_first() 方法 (使 用 yield from 语句 ) 返 回 对 应 元 素 。 


讨论 


Python 的 迭代 协议 要 求 一 个 iter O 方法 返回 一 个 特殊 的 迭代 占 对 象 ， 这 个 迭代 器 对 
象 实现 了 __next__() 方法 并 通过 stopIteration 异常 标识 迭代 的 完成 。 但是， 实现 这 些 

通常 会 比较 繁琐 。 下 面 我 们 演示 下 这 种 方式 ， 如 何 使 用 一 个 关联 迭代 器 类 重新 实现 
depth_first() 方法 : 


class Node2: 
def __init__(self, value): 
self. value = value 
self._children = [] 


def _repr__(self): 
return 'Node({!r})'.format(self. value) 


def add_child(self, node): 
self. children. append(node) 


def __iter__(self): 
return iter(self. children) 


def depth_first(self): 
return DepthFirstIterator(self) 


class DepthFirstIterator(object): 


Depth-first traversal 


def __init__(self, start_node): 
self._node = start_node 
self. _children_iter = None 
self._child_iter = None 


def __iter__(self): 
return self 


def __next__(self): 
# Return myself if just started; create an iterator for children 
if self. children_iter is None: 
self. _children_iter = iter(self._ node) 
return self. node 
# If processing a child, return its next item 
elif self. child_iter: 
try: 
nextchild = next(self._child_iter) 
return nextchild 
except StopIteration: 
self._child_iter = None 
return next(self) 
# Advance to the next child and start its iteration 
else: 
self. _child_iter = next(self._children_iter).depth_first() 
return next(self) 














DepthFirstIterator 类 和 上 面 使 用 生成 器 的 版 本 工作 原理 类 似 ， 但 是 它 写 起 来 很 繁琐 ， 
KIKARA U ETE CARE Be PEP A Ras ko BARH, BRAVES IR HAE 
KRES. CREB IIE ae XE SOA SE at a — YA E o 



































4.5 反 回 迭代 
问题 


你 想 反 方向 迭代 一 个 序列 


使 用 内 置 的 reversed() 函数 ， 比 如 : 


>>> a = [1, 2, 3, 4] 
>>> for x in reversed(a): 
print(x) 


PNW He oe 


FIAT RA AR AT AZ) MEA EREN ASEH TT reversed O 的 特殊 方法 时 才 
能 生效 。 如 果 两 者 都 不 符合 ， 那 你 必须 先 将 对 象 转换 为 一 个 列表 才 行 ， 比 如 : 


# Print a file backwards 

f = open('somefile' ) 

for line in reversed(list(f)): 
print(line, end='') 





BEE RS We WARE OT ROC AIRS Nh, CRRA TRE EK EN A TE o 


讨论 











很 多 程序 员 并 不 知道 可 以 通过 在 自 定义 类 上 实现 reversed O 方法 来 实现 反 向 迭代 。 
比如 : 


class Countdown: 
def __init__(self, start): 
self.start = start 


# Forward iterator 
def __iter__(self): 
n = self.start 
while n > 6: 
yield n 
n -= 


# Reverse iterator 
def __reversed_ (self): 
n=1 
while n <= self.start: 
yield n 
n += 1 


for rr in reversed(Countdown(36) ) : 
print(rr) 

for rr in Countdown(3@): 
print(rr) 


定义 一 个 反 向 和 迭代 器 可 以 使 得 代码 非常 的 高 效 ， 因 为 它 不 再 需要 将 数据 填充 到 一 个 列表 
中 然后 再 去 反 向 迭代 这 个 列表 。 





4.6 珊 有 外 部 状态 的 生成 万 函数 


问题 





你 想 定义 一 个 生成 器 函数 ， 但 是 它 会 调用 某 个 你 想 暴 露 给 用 户 使 用 的 外 部 状态 值 。 


如 果 你 想 让 你 的 生成 器 暴露 外 部 状态 给 用 户 ， 别 筷 了 你 可 以 简单 的 将 它 实现 为 一 个 类 ， 
然后 把 生成 器 函数 放 到 _iter_() 方法 中 过 去 。 比 如 : 





from collections import deque 


class linehistory: 
def __init__(self, lines, histlen=3): 
self.lines = lines 
self.history = deque(maxlen=histlen) 


def __iter__(self): 
for lineno, line in enumerate(self.lines, 1): 
self. history.append((lineno, line)) 
yield line 


def clear(self): 
self.history.clear() 


为 了 使 用 这 个 类 ， 你 可 以 将 它 当 做 是 一 个 普通 的 生成 器 函数 。 然 而 ， 由 于 可 以 创建 一 个 
实例 对 象 ， 于 是 你 可 以 访问 内 部 属性 值 ， 比如 history 属性 或 者 是 clear() 方法 。 代码 
示例 如 下 : 





with open('somefile.txt') as f: 
lines = linehistory(f) 
for line in lines: 
if 'python' in line: 
for lineno, hline in lines.history: 
print('{}:{}'.format(lineno, hline), end='') 


讨论 





关于 生成 器 ， 很 容易 掉 进 函数 无 所 不 能 的 陷阱 。 如 果 生 成 器 函数 需要 跟 你 的 程序 其 他 部 
分 打交道 的 话 ( 比 如 暴露 属性 值 ， 人 允许 通 过 方法 调用 来 控制 等 等 )， 可 能 会 导致 你 的 代码 异 
常 的 复杂 。 如 果 是 这 种 情况 的 话 ， 可 以 考虑 使 用 上 面 介绍 的 定义 类 的 方式 。 在 
_iter__() 方法 中 定义 你 的 生成 器 不 会 改变 你 任何 的 算法 逻辑 。 由 于 它 是 类 的 一 部 分 ， 
所 以 允许 你 定义 各 种 属性 和 方法 来 供用 户 使 用 。 

















一 个 需要 注意 的 小 地 方 是 ， 如 果 你 在 迭代 操作 时 不 使 用 for 循 环 语句 ， 那 么 你 得 先 调用 
iter() 函数 。 比 如 ; 


>>> f = open('somefile.txt') 
>>> lines = linehistory(f) 
>>> next(lines) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: ‘linehistory' object is not an iterator 


>>> # Call iter() first, then start iterating 
>>> it = iter(lines) 

>>> next(it) 

"hello world\n' 

>>> next(it) 

"this is a test\n' 

>>> 


4.7 IE Nas WA 
问题 


你 想得到 一 个 由 途 代 器 生成 的 切片 对 象 ， 但 是 标准 切片 操作 并 不 能 做 到 。 


函数 itertools.islice() 正好 适用 于 在 迭代 器 和 生成 器 上 做 切片 操作 。 比 如 : 


>>> def count(n): 
while True: 
yield n 
n += 1 


>>> c = count(@) 
>>> ¢c[10:20] 
Traceback (most recent call last): 
File "“<stdin>", line 1, in <module> 
TypeError: ‘generator’ object is not subscriptable 


>>> # Now using islice() 

>>> import itertools 

>>> for x in itertools.islice(c, 10, 20): 
print(x) 


讨论 


迭代 器 和 生成 器 不 能 使 用 标准 的 切片 操作 ， 因 为 它们 的 长 度 事先 我 们 并 不 知道 (并 且 也 没 
有 实现 索引 )。 函数 islice() BES WAM ECR NAN, CMe HEH 
直到 切片 开始 索引 位 置 的 所 有 元 素 。 然后 才 开始 一 个 个 的 返回 元 素 ， 并 直到 切片 结束 索 
引 位 置 。 























这 里 要 着 重 强调 的 一 点 是 islice() 会 消耗 掉 传 入 的 迭代 器 中 的 数据 。 GE BIS as 
是 不 可 北 的 这 个 事实 。 所 以 如 果 你 需要 之 后 再 次 访问 这 个 迭代 器 的 话 ， 那 你 就 得 先 将 它 
里 面 的 数据 放 入 一 个 列表 中 。 


4.8 跌 过 可 迭代 对 象 的 开始 部 分 


问题 





— 


尔 想 遍 历 一 个 可 迭代 对 象 ， 但 是 它 开 始 的 某 些 元 素 你 并 不 感 兴趣 ， 想 跳 过 它们 。 











解决 方案 








itertools 模块 中 有 一 些 函 数 可 以 完成 这 个 任务 。 首先 介绍 的 是 itertools.dropwhile() 
函数 。 使 用 时 ， 你 给 它 传递 一 个 函数 对 象 和 一 个 可 迭代 对 象 。 它 会 返回 一 个 迭代 器 对 
象 ， 技 弃 原 有 序列 中 直到 函数 返回 True 之 前 的 所 有 元 素 ， 然 后 返回 后 面 所 有 元 素 。 




















为 了 演示 ， 假 定 你 在 读 取 一 个 开始 部 分 是 几 行 注释 的 源 文件 。 比 如 : 


>>> with open('/etc/passwd') as f: 
. for line in f: 
print(line, end='') 
HH 
# User Database 
# 
# Note that this file is consulted directly only when the system is running 


# in single-user mode. At other times, this information is provided by 
# Open Directory. 


HH 
nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 


root:*:0:0:System Administrator:/var/root:/bin/sh 


>>> 


如 果 你 想 跳 过 开始 部 分 的 注释 行 的话 ， 可 以 这 样 做 : 


>>> from itertools import dropwhile 
>>> with open('/etc/passwd') as f: 
for line in dropwhile(lambda line: line.startswith('#'), f): 
print(line, end='') 


nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:@:System Administrator: /var/root:/bin/sh 


>>> 


这 个 例子 是 基于 根据 某 个 测试 函数 跳 过 开始 的 元 素 。 如 果 你 已 经 明确 知道 了 要 跳 过 的 元 
素 的 个 数 的 话 ， 那么 可 以 使 用 itertools.islice() 来 代替 。 比如 : 


>>> from itertools import islice 

>>> items = ["a"; "b"; "€"; 1; 4, 10; 15] 

>>> for x in islice(items, 3, None): 
print(x) 


在 这 个 例子 中 ， islice() 函数 最 后 那个 None 参数 指定 了 你 要 获取 从 第 3 个 到 最 后 的 所 有 
元 素 ， 如 果 None 和 3 的 位 置 对 调 ， 意 思 就 是 仅仅 获取 前 三 个 元 素 恰 恰 相 反 ， (这 个 跟 切 
片 的 相反 操作 [3:] 和 [:3] 原理 是 一 样 的 )。 


























函数 dropwhile() 和 islice() 其 实 就 是 两 个 帮助 函数 ， 为 的 就 是 避免 写 出 下 面 这 种 元 余 
代码 : 


with open('/etc/passwd') as f: 
# Skip over initial comments 
while True: 
line = next(f, '') 
if not line.startswith('#'): 
break 


# Process remaining Lines 

while line: 
# Replace with useful processing 
print(line, end='') 
line = next(f, None) 


PIS — PAF AT RAITT eB PR E EE AB IA. 比如 ， 上 述 代 码 的 第 一 个 部 分 
可 能 会 这 样 重 写 : 


with open('/etc/passwd') as f: 
lines = (line for line in f if not line.startswith('#')) 
for line in lines: 
print(line, end='') 


这 样 写 确实 可 以 跳 过 开始 部 分 的 注释 行 ， 但 是 同样 也 会 跳 过 文件 中 其 他 所 有 的 注释 行 。 
换 句 话 讲 ， 我 们 的 解决 方案 是 仅仅 跳 过 开始 部 分 满足 测试 条 件 的 行 ， 在 那 以 后 ， 所 有 的 元 
素 不 再 进行 测试 和 过 滤 了 。 


最 后 需要 着 重 强调 的 一 点 是 ， 本 节 的 方案 适用 于 所 有 可 迭代 对 象 ， 包 括 那 些 事先 不 能 确定 
大 小 的 ， 比 如 生成 器 ， 文 件 及 其 类 似 的 对 象 。 


4.9 排列 组 合 的 迭代 


问题 





你 想 欠 代 遍历 一 个 集合 中 元 素 的 所 有 可 能 的 排列 或 组 合 











解决 方案 


itertools 模 块 提 供 了 三 个 函数 来 解决 这 类 问题 。 其 中 一 个 是 itertools.permutations() ， 
它 接 受 一 个 集合 并 产生 一 个 元 组 序列 ， 每 个 元 组 由 集合 中 所 有 元 素 的 一 个 可 能 排列 组 成 。 
也 就 是 说 通过 打 乱 集合 中 元 素 排列 顺序 生成 一 个 元 组 ， 比 如 : 





>>> items = ['a', 'b', 'c'] 
>>> from itertools import permutations 
>>> for p in permutations(items): 


sas print(p) 
Coats. bs =e") 
('a', 'c', 'b') 
('b', “ay ‘c') 
Cbs es tar) 
("en Mag PB") 
('c', ‘'b', =a") 
>>> 


如 果 你 想得到 指定 长 度 的 所 有 排列 ， 你 可 以 传递 一 个 可 选 的 长 度 参数 。 就 像 这 样 : 


>>> for p in permutations(items, 2): 


wants print(p) 
(ats “BD 
Cat, e) 
('b', 'a') 
(be, Ne) 
Cory ta") 

(ety hy 

>>> 


使 用 itertools.combinations() 可 得 到 输入 集合 中 元 素 的 所 有 的 组 合 。 比如 : 


>>> from itertools import combinations 
>>> for c in combinations(items, 3): 
print(c) 


('a', 'b', 'c') 


>>> for c in combinations(items, 2): 
print(c) 


>>> for c in combinations(items, 1): 
print(c) 


'a',) 
'b',) 
c',) 





对 于 combinations() 来 讲 ， 元 素 的 顺序 已 经 不 重要 了 。 也 就 是 说 ， 组 合 (a5. 7b") ER 
Co, 'a') 其 实 是 一 样 的 (最 终 只 会 输出 其 中 一 个 )。 





在 计算 组 合 的 时 候 ， 一 旦 元 素 被 选取 就 会 从 候选 中 剔除 掉 ( 比 如 如 果 元 素 'a 已 经 被 选取 
Ts 那么 接 下 来 就 不 会 再 考虑 它 了 )。 而 函数 itertools.combinations with_replacement() 
允许 同一 个 元 素 被 选择 多 次 ， 比 如 : 





>>> for c in combinations_with_replacement(items, 3): 
print(c) 


OCT TF oF MY DY DY DY YD WD ， 
` ` 
NN Ton TFT oF Se U OG 
` 
AF w Sn a Oo oe og 
wewevrvrvrwvrvrrvr ww 


We AL a WW E ee AS 0 


Vv 
v 


讨论 


这 一 小 节 我 们 向 你 展示 的 仅仅 是 itertools 模块 的 一 部 分 功能 。 尽 管 你 也 可 以 自己 手动 
实现 排列 组 合算 法 ， 但 是 这 样 做 得 要 花 点 脑力 。 当 我 们 磁 到 看 上 去 有 些 复杂 的 迭代 问题 
时 ， 最 好 可 以 先 去 看 看 itertools 模 块 。 如 果 这 个 问题 很 普 裔 ， 那 么 很 有 可 能 会 在 里 面 找 到 
解决 方案 ! 

















4.10 序列 上 索引 值 迭 代 


问题 











你 想 在 迭代 一 个 序列 的 同时 跟踪 正在 被 处 理 的 元 素 索 引 。 





内 置 的 enumerate() 函数 可 以 很 好 的 解决 这 个 问题 : 


>>> my list = ['a', "b"; ‘c'] 
>>> for idx, val in enumerate(my_list): 
print(idx, val) 


为 了 按 传统 行 号 输出 ( 行 号 从 1 开始 )， 你 可 以 传递 一 个 开始 参数 : 


>>> my_list. = ["a"; "D"; *e°] 
>>> for idx, val in enumerate(my_list, 1): 
print(idx, val) 





这 种 情况 在 你 遍历 文件 时 想 在 错误 消息 中 使 用 行 号 定位 时 候 非常 有 用 : 











def parse_data(filename): 
with open(filename, 'rt') as f: 
for lineno, line in enumerate(f, 1): 
fields = line.split() 
try: 
count = int(fields[1]) 


except ValueError as e: 
print('Line {}: Parse error: {}'.format(lineno, e)) 


enumerate() 对 于 跟踪 某 些 值 在 列表 中 出 现 的 位 置 是 很 有 用 的 。 所 以 ， 如 果 你 想 将 一 个 文 
件 中 出 现 的 单词 映射 到 它 出 现 的 行 号 上 去 ， 可 以 很 容易 的 利用 enumerate() 来 完成 





word_summary = defaultdict(list) 


with open('myfile.txt', 'r') as f: 
lines = f.readlines() 


for idx, line in enumerate(lines): 
# Create a List of words in current Line 
words = [w.strip().lower() for w in line.split()] 
for word in words: 
word_summary[word].append(idx) 














如 果 你 处 理 完 文件 后 打印 word_summary ， 会 发 现 它 是 一 个 字典 (准确 来 讲 是 一 个 
defaultdict )， 对 于 每 个 单词 有 一 个 key ， 每 个 key 对 应 的 值 是 一 个 由 这 个 单词 出 现 
的 行 号 组 成 的 列表 。 如 果 某 个 单词 在 一 行 中 出 现 过 两 次 ， 那 么 这 个 行 号 也 会 出 现 两 次 ， 
同时 也 可 以 作为 文本 的 一 个 简单 统计 。 











讨论 


当 你 想 额 外 定义 一 个 计数 变量 的 时 候 ， 使 用 enumerate() 函数 会 更 加 简单 。 你 可 能 会 像 下 
面 这 样 写 代码 : 


lineno = 1 
for line in f: 
# Process Line 


Hi 


lineno += 


但 是 如 果 使 用 enumerate) 函数 来 代 蔡 就 显得 更 加 优雅 了 : 


for lineno, line in enumerate(f): 
# Process Line 


enumerate() 函数 返回 的 是 一 个 enumerate 对 象 实例 ， 它 是 一 个 迭代 器 ， 返 回 连续 的 包含 
一 个 计数 和 一 个 值 的 元 组 ， 元 组 中 的 值 通过 在 传 入 序列 上 调用 next() 返回 。 














还 有 一 点 可 能 并 不 很 重要 ， 但 是 也 值得 注意 ， 有 时 候 当 你 在 一 个 已 经 解压 后 的 元 组 序列 
上 使 用 enumerate() 函数 时 很 容易 调 入 陷阱 。 你 得 像 下 面 正确 的 方式 这 样 写 : 





data = [ (1, 2), (3, 4), 5-6), (7, 8) ] 


# Correct! 
for n, (x, y) in enumerate(data): 


# Error! 
for n, x, y in enumerate(data): 


4.11 FFI TEARS PS Fe I 
问题 


你 想 同 时 和 迭代 多 个 序列 ， 每 次 分 别 从 一 个 序列 中 取 一 个 元 素 。 


解决 方案 
为 了 同时 迭代 多 个 序列 ， 使 用 zio 函数 。 比 如 : 


>>> xpts = [1, 5, 4, 2, 10, 7] 

>>> ypts = [101, 78, 37, 15, 62, 99] 

>>> for x, y in zip(xpts, ypts): 
print(x,y) 


zip(a, b) 会 生成 一 个 可 返回 元 组 (X Y) 的 迭代 器 ， 其 中 x 来 自 a， y 来 自 b。 








旦 其 中 茶 





个 序列 到 底 结 尾 ， 和 迭代 宣告 结束 。 因 此 从 代 长 度 跟 参 数 中 最 短 序列 长 度 一 致 。 


>>> a = [1, 2, 3] 
['w', "y's 
>>> for i in zip(a,b): 


>>> b= ne | 


wet 


print(i) 
(1, 'w') 
(2, 'x') 
(3, y") 
>>> 


如 果 这 个 不 是 你 想 要 的 效果 ， 那 么 还 可 以 使 用 itertools.zip_longest() KARRE. tE 


如 : 


>>> from itertools import zip_longest 
>>> for i in zip_longest(a,b): 


print(i) 
(1, 'w') 
(2, 'x') 
(3, 'y') 
(None, 'z') 


>>> for i in zip_longest(a, b, fillvalue=0): 
print(i) 

(1, 

(2, ' 

(3, ' 


(ð, 
>>> 


Wh a a we 


N < x = 三 


讨论 











当 你 想 成 对 处 理 数 据 的 时 候 zip() 函数 是 很 有 用 的 。 
表 ， 束 像 下 面 这 样 : 








headers = ['name', 'shares', 


['ACME', 100, 490.1] 


"price'] 
values = 


比如 ， 假 设 你 头 列表 和 一 个 值 列 


使 用 zip() 可 以 让 你 将 它们 打包 并 生成 一 个 字典 : 


s = dict(zip(headers,values)) 


或 者 你 也 可 以 像 下 面 这 样 产 生 输 出 : 


for name, val in zip(headers, values): 
print(name, '=', val) 








虽然 不 常见 ， 但 是 zip() 可 以 接受 多 于 两 个 的 序列 的 参数 。 这 时 候 所 生成 的 结果 元 组 中 
元 素 个 数 跟 输入 序列 个 数 一 样 。 比 如 ; 


>>> a = [1, 2, 3] 
>>> b = [10, 11, 12] 


>>> C 
>>> for i in zip(a, b, c): 





print(i) 
(1, 10, 'x') 
(2, 11, 'y') 
(3, 12, 'z') 
>>> 
最 后 强调 一 点 就 是 ， zip() 会 创建 一 个 迭代 器 来 作为 结果 返回 。 如 果 你 需要 将 结对 的 值 


存储 在 列表 中 ， 要 使 用 list() 函数 。 比 如 : 


>>> zip(a，b) 

<zip object at 0x1007001b8> 
>>> list(zip(a, b)) 

[CL 10), (2,91); (3; 12)] 
>>> 


412 KABA ERAN 
问题 


你 想 在 多 个 对 象 执 行 相同 的 操作 ， 但 是 这 些 对 象 在 不 同 的 容器 中 ， 你 希望 代码 在 不 失 可 读 
性 的 情况 下 避免 写 重 复 的 循环 。 





ERIT R 


itertools.chain() MRA VA FARK a IX MES CRZ PS TAL RIR ERNA, 
并 返回 一 个 迭代 器 ， 有 效 的 屏蔽 掉 在 多 个 容器 中 迭代 细节 。 为 了 演示 清楚 ， 考 虑 下 面 这 
个 例子 : 





>>> from itertools import chain 
Soca = [Ly 2s 35-4] 
SS b= [ey Tey 72 
>>> for x in chain(a, b): 
. print(x) 


NX x BWNP ， 


使 用 chain 的 一 个 常见 场景 是 当 你 想 对 不 同 的 集合 中 所 有 元 素 执行 某 些 操作 的 时 候 。 
比如 : 


# Various working sets of items 
active_items = set() 
inactive_items = set() 


# Iterate over all items 


for item in chain(active_items, inactive_items): 
# Process item 


这 种 解决 方案 要 比 像 下 面 这 样 使 用 两 个 单独 的 循环 更 加 优雅 ， 


for item in active items: 
# Process item 


for item in inactive items: 
# Process item 


讨论 
itertools.chain() 接受 一 个 或 多 个 可 友 代 对 象 最 为 输入 参数 。 然后 创建 一 个 和 欠 代 器 ， 依 


次 连续 的 返回 每 个 可 迭代 对 象 中 的 元 素 。 这 种 方式 要 比 先 将 序列 合并 再 迭代 要 高 效 的 
多 。 比 如 : 


# Inefficent 
for x ina +b: 


# Better 
for x in chain(a, b): 


第 一 种 方案 中 ， a+b 操作 会 创建 一 个 全 新 的 序列 并 要 求 a 和 b 的 类 型 一 致 。 chian() 不 
会 有 这 一 步 ， 所 以 如 果 输 入 序列 非常 大 的 时 候 会 很 省 内 存 。 并 且 当 可 和 迭代 对 象 类 型 不 一 
样 的 时 候 cnain() 同样 可 以 很 好 的 工作 。 


4.13 创建 数据 处 理 管 道 


问题 





你 想 以 数据 管道 (类 似 Unix 管 道 ) 的 方式 迭代 处 理 数据 。 比如 ， 你 有 个 大 量 的 数据 需要 处 
理 ， 但 是 不 能 将 它们 一 次 性 放 入 内 存 中 。 

















解决 方案 

















生成 器 函数 是 一 个 实现 管道 机 制 的 好 办 法 。 为 了 演示 ， 假 定 你 要 处 理 一 个 非常 大 的 日 志 
文 作 具 未 : 





foo/ 
access-log-012007.gz 
access-log-022007.gz 
access-log-032007.gz 


access-log-012008 
bar/ 


access-log-092007.bz2 


access-log-022008 





假设 每 个 日 志文 件 包含 这 样 的 数据 : 


124.115.6.12 - - [10/Jul/2012:00:18:50 -6566] "GET /robots.txt ..." 200 71 
210.212.209.67 - - [10/Jul/2012:00:18:51 -@500] "GET /ply/ ..." 200 11875 
210.212.209.67 - - [10/Jul/2012:00:18:51 -@500] "GET /favicon.ico ..." 404 369 
61.135.216.105 - - [10/Jul1/2012:00:20:04 -@500] "GET /blog/atom.xml ..." 304 - 


为 了 处 理 这 些 文 件 ， 你 可 以 定义 一 个 由 多 个 执行 特定 任务 独立 任务 的 简单 生成 器 函数 组 成 
的 容器 。 就 像 这 样 : 


import os 
import fnmatch 
import gzip 
import bz2 
import re 


def gen_find(filepat, top): 


Find all filenames in a directory tree that match a shell wildcard pattern 
for path, dirlist, filelist in os.walk(top): 
for name in fnmatch.filter(filelist, filepat): 
yield os.path.join(path, name) 


def gen_opener(filenames): 
Open a sequence of filenames one at a time producing a file object. 
The file is closed immediately when proceeding to the next iteration. 
for filename in filenames: 
if filename.endswith('.gz'): 
f = gzip.open(filename, ‘rt') 
elif filename.endswith('.bz2'): 
f 
else: 


bz2.open(filename, ‘rt') 


f = open(filename, 'rt') 
yield f 
f.close() 


def gen_concatenate(iterators): 


Chain a sequence of iterators together into a single sequence. 
for it in iterators: 
yield from it 


def gen_grep(pattern, lines): 


Look for a regex pattern in a sequence of lines 
pat = re.compile(pattern) 
for line in lines: 
if pat.search(line): 
yield line 























现在 你 可 以 很 容易 的 将 这 些 函数 连 起 来 创建 一 个 处 理 管道 。 比 如 ， 为 了 查找 包含 单词 
python 的 所 有 日 志 行 ， 你 可 以 这 样 做 : 





lognames = gen_find('access-log*', ‘www') 
files = gen_opener(lognames) 
lines = gen_concatenate(files) 
pylines = gen_grep('(?i)python', lines) 
for line in pylines: 

print(line) 





如 果 将 来 的 时 候 你 想 扩 展 管道 ， 你 甚至 可 以 在 生成 器 表达 式 中 包装 数据 。 比如， 下 面 这 
个 版 本 计算 出 传输 的 字 节 数 并 计算 其 总 和 


lognames = gen_find('access-log*', ‘www') 

files = gen_opener(lognames) 

lines = gen_concatenate(files) 

pylines = gen_grep('(?i)python', lines) 

bytecolumn = (line.rsplit(None,1)[1] for line in pylines) 
bytes = (int(x) for x in bytecolumn if x != '-') 
print('Total', sum(bytes) ) 











以 管道 方式 处 理 数据 可 以 用 来 解决 各 类 其 他 问题 ， 包 括 解析 ， 读 取 实 时 数据 ， 定 时 轮 询 

















为 了 理解 上 述 代码 ， 重 点 是 要 明白 yield 语句 作为 数据 的 生产 者 而 for 循环 语句 作为 数 
据 的 消费 者 。 当 这 些 生成 器 被 连 在 一 起 后 ， 每 个 yield 会 将 一 个 单独 的 数据 元 素 传递 给 
迭代 处 理 管 道 的 下 一 阶段 。 在 例子 最 后 部 分 ， sum() 函数 是 最 终 的 程序 驱动 者 ， 每 次 从 
生成 器 管道 中 提取 出 一 个 元 素 。 























这 种 方式 一 个 非常 好 的 特点 是 每 个 生成 器 函数 很 小 并 且 都 是 独立 的 。 这 样 的 话 就 很 容易 编 
写 和 维护 它们 了 。 很 多 时 候 ， 这 些 函数 如 果 比 较 通 用 的 话 可 以 在 其 他 场景 重复 使 用 。 并 
且 最 终 将 这 些 组 件 组 合 起 来 的 代码 看 上 去 非常 简单 ， 也 很 容易 理解 。 


























使 用 这 种 方式 的 内 存 效率 也 不 得 不 担 。 上 述 代码 即便 是 在 一 个 超大 型 文件 目录 中 也 能 工作 
的 很 好 。 事实 上 ， 由 于 使 用 了 和 迭代 方式 处 理 ， 代 码 运行 过 程 中 只 需要 很 小 很 小 的 内 存 。 


























在 调用 gen_concatenate() 函数 的 时 候 你 可 能 会 有 些 不 太 明 白 。 这 个 函数 的 目的 是 将 输入 
序列 拼接 成 一 个 很 长 的 行 序列 。 itertools.chain() 函数 同样 有 类 似 的 功能 ， 但 是 它 需 要 
将 所 有 可 和 迭代 对 象 最 为 参数 传 入 。 在 上 面 这 个 例子 中 ， 你 可 能 会 写 类 似 这 样 的 语句 


lines = itertools.chain(*files) ; 使 得 gen_opener() 生成 器 能 被 全 部 消费 掉 。 但 由 于 
gen_opener() 生成 器 每 次 生成 一 个 打开 过 的 文件 ， 等 到 下 一 个 迭代 步骤 时 文件 就 关闭 
J, KIJE china() 在 这 里 不 能 这 样 使 用 。 上面 的 方案 可 以 避免 这 种 情况 。 














gen_concatenate() 函数 中 出 现 过 yield from 语句 ; 它 将 yield 操作 代理 到 父 生 成 器 上 
去 。 语 句 yield from it 简单 的 返回 生成 器 it 所 产生 的 所 有 值 。 关 于 这 个 我 们 在 4.14 小 
节 会 有 更 进一步 的 描述 。 























最 后 还 有 一 点 需要 注意 的 是 ， 管 道 方式 并 不 是 万 能 的 。 有 时 候 你 想 立 即 处理 所 有 数据 。 
然而 ， 即 便 是 这 种 情况 ， 使 用 生成 器 管道 也 可 以 将 这 类 问题 从 逻辑 上 变 为 工作 流 的 处 理 方 
The 

















David Beazley 在 他 的 Generator Tricks for Systems Programmers 教程 中 对 于 这 种 技术 有 
非常 深入 的 讲解 。 可 以 参考 这 个 教程 获取 更 多 的 信息 。 








4.14 k F RE HIFA 
问题 


你 想 将 一 个 多 层 嵌 套 的 序列 展开 成 一 个 单 层 列表 


可 以 写 一 个 包含 yield from 语句 的 递归 生成 器 来 轻松 解决 这 个 问题 。 比如 : 


from collections import Iterable 


def flatten(items, ignore types=(str, bytes)): 
for x in items: 
if isinstance(x, Iterable) and not isinstance(x, ignore_types): 
yield from flatten(x) 
else: 
yield x 


items = [1, 2, [3, 4, [5, 6], 7], 8] 
# Produces 12345678 
for x in flatten(items): 

print(x) 


在 上 面 代码 中 ， isinstance(x, Iterable) 检查 某 个 元 素 是 否 是 可 迭代 的 。 如 果 是 的 话 ， 
yield from 就 会 返回 所 有 子 例 程 的 值 。 最 终 返 回 结果 就 是 一 个 没有 瞬 套 的 简单 序列 了 。 








额外 的 参数 ignore_types 和 检测 语句 isinstance(x, ignore types) 用 来 将 字符 串 和 字 节 
排除 在 可 迭代 对 象 外 ， 防 止 将 它们 再 展开 成 单个 的 字符 。 这 样 的 话 字符 串 数 组 承 能 最 终 
返回 我 们 所 期 望 的 结果 了 。 比 如 : 





>>> items = ['Dave', 'Paula', ['Thomas', 'Lewis']] 
>>> for x in flatten(items): 
print(x) 


Dave 
Paula 
Thomas 
Lewis 
>>> 


讨论 


语句 yield from 在 你 想 在 生成 器 中 调用 其 他 生成 器 作为 子 例 程 的 时 候 非 常 有 用 。 如 果 你 
不 使 用 它 的 话 ， 那 么 就 必须 写 额 外 的 for 循环 了 。 比 如 : 





def flatten(items, ignore types=(str, bytes)): 
for x in items: 
if isinstance(x, Iterable) and not isinstance(x, ignore_types): 
for i in flatten(x): 
yield i 
else: 
yield x 





尽管 只 改 了 一 点 点 ， 但 是 |yisld fron 语句 看 上 去 感觉 更 好 ， 并 且 也 使 得 代码 更 简洁 清 
K. 





之 前 提 到 的 对 于 字符 串 和 字 节 的 额外 检查 是 为 了 防止 将 它们 再 展开 成 单个 字符 。 如 果 还 
有 其 他 你 不 想 展 开 的 类 型 ， 修改 参数 ignore_types Bay. 











最 后 要 注意 的 一 点 是 ， yield from FEW A BFE TF MEM E BM ae HY IF Ac ia Be Pie EN 
重要 的 角色 。 可 以 参考 12.12 小 节 查看 另外 一 个 例子 。 





4.15 顺序 迭代 合并 后 的 排序 迭代 对 象 


问题 








你 有 一 系列 排序 序列 ， 想 将 它们 合并 后 得 到 一 个 排序 序列 并 在 上 面 迭 代 裔 历 。 














heapq.merge() 水 数 可 以 帮 你 解决 这 个 问题 。 比 如 : 


>>> import heapq 

>>> a = [1, 4, 7, 10] 

>>> b = [2, 5, 6, 11] 

>>> for c in heapq.merge(a, b): 
print(c) 


BB EB WO BB BB: - 
© E È 


m 


讨论 





heapq.merge 可 帮 代 特性 意味 着 它 不 会 立马 读 取 所 有 序列 。 这 就 意味 着 你 可 以 在 非常 长 的 
序列 中 使 用 它 ， 而 不 会 有 太 大 的 开销 。 比如 ， 下 面 是 一 个 例子 来 演示 如 何 合 并 两 个 排序 
文件 : 





with open('sorted file 1', 'rt') as filel, \ 
open('sorted file 2', 'rt') as file2, \ 
open('merged_file', 'wt') as outf: 


for line in heapq.merge(file1, file2): 
outf.write(line) 





有 一 点 要 强调 的 是 heapq.merge() 需要 所 有 输入 序列 必须 是 排 过 序 的 。 特别 的 ， 它 并 不 会 
预先 读 取 所 有 数据 到 堆栈 中 或 者 预先 排序 ， 也 不 会 对 输入 做 任何 的 排序 检测 。 它 仅仅 是 
检查 所 有 序列 的 开始 部 分 并 返回 最 小 的 那个 ， 这 个 过 程 一 直 会 持续 直到 所 有 输入 序列 中 的 
元 素 都 被 过 历 完 。 





























4.16 迭代 器 代 蔡 While 无 限 循环 


问题 




















你 在 代码 中 使 用 white 循环 来 迭代 处 理 数据 ， 因 为 它 需要 调用 某 个 函数 或 者 和 一 般 迭 代 
模式 不 同 的 测试 条 件 。 能 不 能 用 迭代 器 来 重 写 这 个 循环 呢 ? 


解决 方案 


一 个 常见 的 ID 操作 程序 可 能 会 想 下 面 这 样 : 





CHUNKSIZE = 8192 


def reader(s): 
while True: 
data = s.recv(CHUNKSIZE ) 
if data == 
break 
process data(data) 


这 种 代码 通常 可 以 使 用 itero 来 代替 ， 如 下 所 示 : 


def reader2(s): 
for chunk in iter(lambda: s.recv(CHUNKSIZE), b''): 
pass 
# process _data(data) 





如 果 你 怀疑 它 到 底 能 不 能 正常 工作 ， 可 以 试验 下 一 个 简单 的 例子 。 比 如 : 


>>> import sys 

>>> f = open('/etc/passwd' ) 

>>> for chunk in iter(lambda: f.read(10), ''): 
n = sys.stdout.write(chunk) 


nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:@:System Administrator: /var/root:/bin/sh 
daemon:*:1:1:System Services:/var/root:/usr/bin/false 


_uucp:*:4:4:Unix to Unix Copy Protocol:/var/spool/uucp: /usr/sbin/uucico 


>>> 


讨论 


iter 函数 一 个 鲜 为 人 知 的 特性 是 它 接 受 一 个 可 选 的 callable 对 象 和 一 个 标记 (结尾 ) 值 作 
为 输入 参数 。 当 以 这 种 方式 使 用 的 时 候 ， 它 会 创建 一 个 迭代 器 ， 这 个 迭代 器 会 不 断 调用 
callable 对 象 直到 返回 值 和 标记 值 相等 为 止 。 











这 种 特殊 的 方法 对 于 一 些 特定 的 会 被 重复 调用 的 函数 很 有 效果 ， 比 如 涉及 到 MO 调用 的 函 
Blo 举例 来 讲 ， 如 果 你 想 从 套 接 字 或 文件 中 以 数据 块 的 方式 读 取 数 据 ， 通 常 你 得 要 不 断 
重复 的 执行 reaa) 或 recv() ， 并 在 后 面 紧 跟 一 个 文件 结尾 测试 来 决定 是 否 终止 。 这 节 
中 的 方案 使 用 一 个 简单 的 iter() 调用 就 可 以 将 两 者 结合 起 来 了 。 其 中 Lambda 函数 参数 
是 为 了 创建 一 个 无 参 的 callable WR, IFA recv 或 read() 方法 提供 了 size 参数 。 











第 五 章 : 文件 与 IO 


所 有 程序 都 要 处 理 输入 和 输出 。 这 一 章 将 涵盖 处 理 不 同类 型 的 文件 ， 包 括 文本 和 二 进 种 
文件 ， 文 件 编码 和 其 他 相关 的 内 容 。 对 文件 名 和 目录 的 操作 也 会 涉及 到 。 





























— 

















Contents: 


5.1 读 写 文本 数据 


问题 





你 需要 读 写 各 种 不 同 编码 的 文本 数据 ， 比 如 ASCll，UTF-8 或 UTF-16 编 码 等 。 


解决 方案 


使 用 带 有 rt 模式 的 open() 函数 读 取 文 本 文件 。 如 下 所 示 : 


# Read the entire file as a single string 
with open('somefile.txt', 'rt') as f: 
data = f.read() 


# Iterate over the Lines of the file 
with open('somefile.txt', 'rt') as f: 
for line in f: 
# process Line 


类 似 的 ， 为 了 写 入 一 个 文本 文件 ， 使 用 带 有 we 模式 的 open() 函数 ， 如 果 之 前 文件 内 容 
存在 则 清除 并 履 盖 掉 。 如 下 所 示 : 


# Write chunks of text data 

with open('somefile.txt', ‘wt') as f: 
f.write(text1) 
f.write(text2) 


# Redirected print statement 

with open('somefile.txt', ‘wt') as f: 
print(linel, file=f) 
print(line2, file=f) 


如 果 是 在 已 存在 文件 中 添加 内 容 ， 使 用 模式 为 at 的 open) 函数 。 


文件 的 读 写 操 作 默 认 使 用 系统 编码 ， 可 以 通过 调用 sys.getdefaultencoding() 来 得 到 。 在 
大 多 数 机 器 上 面 都 是 utf-8 编 码 。 如 果 你 已 经 知道 你 要 读 写 的 文本 是 其 他 编码 方式 ， 那么 
可 以 通过 传递 一 个 可 选 的 encoding 参数 给 open() 函 数 。 如 下 所 示 : 


with open('somefile.txt', 'rt', encoding='latin-1') as f: 


Python 支持 非常 多 的 文本 编码 。 几 个 常见 的 编码 是 ascii,latin-1L utf-8 和 utf-16。 在 web 应 
用 程序 中 通常 都 使 用 的 是 UTF-8。 ascii 对 应 从 U+0000 到 U+007F 范 围 内 的 7 位 字符 。 latin- 
1 是 字 节 0-255 到 U+0000 至 U+00FF 范 围 内 Unicode 字 符 的 直接 映射 。 当 读 取 一 个 未 知 编 
码 的 文本 时 使 用 latin-1 编 码 永远 不 会 产生 解码 错误 。 使 用 latin-1 编 码 读 取 一 个 文件 的 时 候 
也 许 不 能 产生 完全 正确 的 文本 解码 数据 ， 但 是 它 也 能 从 中 提取 出 足够 多 的 有 用 数据 。 同 
时 ， 如 果 你 之 后 将 数据 回 写 回去 ， 原 先 的 数据 还 是 会 保留 的 。 











讨论 


读 写 文本 文件 一 般 来 讲 是 比较 简单 的 。 但 是 也 几 点 是 需要 注意 的 。 首先 ， 在 例子 程序 中 
的 with 语 句 给 被 使 用 到 的 文件 创建 了 一 个 上 下 文 环境 ， 但 with 控制 块 结束 时 ， 文 件 会 自 
动 关闭 。 你 也 可 以 不 使 用 with 语句 ， 但 是 这 时 候 你 就 必须 记得 手动 关闭 文件 : 














f = open('somefile.txt', 'rt') 
data = f.read() 
f.close() 


另外 一 个 问题 是 关于 换行 符 的 识别 问题 ， 在 Unix 和 Windows 中 是 不 一 样 的 (分 别 是 n 和 
rn)。 默认 情况 下 ，Python 会 以 统一 模式 处 理 换行 符 。 这 种 模式 下 ， 在 读 取 文 本 的 时 候 ， 
Python 可 以 识别 所 有 的 普通 换行 符 并 将 其 转换 为 单个 \n 字符 。 类似 的 ， 在 输出 时 会 将 
MITRE n 转换 为 系统 默认 的 换行 符 。 如 果 你 不 希望 这 种 默认 的 处 理 方式 ， 可 以 给 
open() 国 数 传 入 参数 newline='' ， 就 像 下 面 这 样 : 



































# Read with disabled newline translation 
with open('somefile.txt', 'rt', newline='') as f: 





为 了 说 明 两 者 之 间 的 差异 ， 下 面 我 在 Unix 机 器 上 面 读 取 一 个 Windows 上 面 的 文本 文件 ， 
里 面 的 内 容 是 hello world!\r\n : 


>>> # Newline translation enabled (the default) 
>>> f = open('hello.txt’, 'rt') 

>>> F.read() 

"hello world! \n' 


>>> # Newline translation disabled 

>>> g = open('hello.txt', ‘rt’, newline='"') 
>>> g.read() 

"hello world!\r\n' 

>>> 





最 后 一 个 问题 就 是 文本 文件 中 可 能 出 现 的 编码 错误 。 但 你 读 取 或 者 写 入 一 个 文本 文件 
时 ， 你 可 能 会 遇 到 一 个 编码 或 者 解码 错误 。 比 如 : 





>>> f = open('sample.txt', ‘rt', encoding='ascii') 
>>> f.read() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/encodings/ascii.py", line 26, in decode 
return codecs.ascii_decode(input, self.errors)[@] 
UnicodeDecodeError: ‘ascii’ codec can't decode byte @xc3 in position 
12: ordinal not in range(128) 
>>> 





如 果 出 现 这 个 错误 ， 通 常 表示 你 读 取 文本 时 指定 的 编码 不 正确 。 你 最 好 仔细 阅读 说 明 并 
确认 你 的 文件 编码 是 正确 的 (比如 使 用 UTF-8 而 不 是 Latin-1 编 码 或 其 他 )。 如 果 编 码 错误 还 
是 存在 的 话 ， 你 可 以 给 open() 函数 传递 一 个 可 选 的 errors 参数 来 处 理 这 些 错误 。 下 面 
是 一 些 处 理 常 见 错误 的 方法 : 






































>>> # Replace bad chars with Unicode U+fffd replacement char 

>>> f = open('sample.txt', ‘rt', encoding='ascii', errors='replace') 
>>> f.read() 

"Spicy Jalape?o!' 

>>> # Ignore bad chars entirely 

>>> g = open('sample.txt', 'rt', encoding='ascii', errors='ignore’ ) 
>>> g.read() 

"Spicy Jalapeo!' 

>>> 




















如 果 你 经 常 使 用 errors 参数 来 处 理 编码 错误 ， 可 能 会 让 你 的 生活 变 得 很 糟糕 。 对 于 文本 
处 理 的 首要 原则 是 确保 你 总 是 使 用 的 是 正确 编码 。 当 模棱两可 的 时 候 ， 就 使 用 默认 的 设置 
(通常 都 是 UTF-8)。 














5.2 打印 输出 至 文件 中 
问题 


你 想 将 print() 函数 的 输出 重 定向 到 一 个 文件 中 去 。 


解决 方案 
在 print() 函数 中 指定 | file 关键 字 参 数 ， 像 下 面 这 样 : 


with open('d:/work/test.txt', ‘wt') as f: 
print('Hello World!', file=f) 


讨论 





关于 输出 重 定 向 到 文件 中 就 这 些 了 。 但 是 有 一 点 要 注意 的 就 是 文件 必须 是 以 文本 模式 打 
Fo 如 果 文 件 是 二 进 制 模式 的 话 ， 打 印 就 会 出 错 。 








5.3 使 用 其 他 分 隔 符 或 行 终止 符 打 印 
问题 


你 想 使 用 print() 函数 输出 数据 ， 但 是 想 改变 默认 的 分 隔 符 或 者 行 尾 符 。 


可 以 使 用 在 print() 函数 中 使 用 sep 和 end 关键 字 参 数 ， 以 你 想 要 的 方式 输出 。 比如 : 


>>> print('ACME', 50, 91.5) 

ACME 5@ 91.5 

>>> print('ACME', 50, 91.5, sep=',') 
ACME,5@,91.5 

>>> print('ACME', 50, 91.5, sep=',', end='!!\n") 
ACME,5@,91.5!! 

>>> 


使 用 end 参数 也 可 以 在 输出 中 禁止 换行 。 比 如 : 


>>> for i in range(5): 
print(i) 


AU NBEO.’ 


>>> for i in range(5): 
print(i, end=' ') 


@12 3 4 >>> 


讨论 


当 你 想 使 用 非 空 格 分 隔 符 来 输出 数据 的 时 候 ， 给 printo 函数 传递 一 个 seq 参数 是 最 简 
单 的 方案 。 有 时 候 你 会 看 到 一 些 程序 员 会 使 用 str.join() 来 完成 同样 的 事情 。 比 如 : 


>>> print(','.join('ACME','50','91.5')) 
ACME,5@,91.5 
>>> 


str.join() 的 问题 在 于 它 仅仅 适用 于 字符 串 。 这 意味 着 你 通常 需要 执行 另外 一 些 转换 才 
能 让 它 正常 工作 。 比 如 : 


>>> row = ('ACME', 50, 91.5) 
>>> print(','.join(row) ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: sequence item 1: expected str instance, int found 
>>> print(','.join(str(x) for x in row)) 
ACME ,50,91.5 
>>> 





URS PRAT AAS FAB RI, MOO i BRP AES : 


>>> print(*row, sep=',') 
ACME,5@,91.5 
>>> 


5.4 读 写 字 节 数据 


问题 








你 想 读 写 二 进 制 文件 ， 比 如 图 片 ， 声 音 文件 等 等 。 





使 用 模式 为 rb 或 wb 的 open() 函数 来 读 取 或 写 入 二 进 制 数 据 。 比 如 : 





# Read the entire file as a single byte string 
with open('somefile.bin', 'rb') as f: 
data = f.read() 


# Write binary data to a file 
with open('somefile.bin', 'wb') as f: 
f.write(b'Hello World’) 





在 读 取 二 进 制 数据 时 ， 需 要 指明 的 是 所 有 返回 的 数据 都 是 字 节 字符 串 格 式 的 ， 而 不 是 文本 
字符 串 。 类似 的 ， 在 写 入 的 时 候 ， 必 须 保 证 参数 是 以 字 节 形式 对 外 暴露 数据 的 对 象 (比如 
字 节 字符 串 ， 字 节 数 组 对 象 等 )。 








FETA — BE HBR SIN, SESE EBT SCAR FE EB ST SC YE SB BE FSB 
阱 。 Rea a BER ee, Feo] AZIDE NA Be eB ECU: 








>>> # Text string 
>>> t = "Hello World' 
>>> tle] 


>>> for c in t: 
print(c) 


O FO Ts 


>>> # Byte string 
>>> b = b'Hello World’ 
>>> ble] 


>>> for c in b: 
print(c) 








如 果 你 想 从 二 进 制 模式 的 文件 中 读 取 或 写 入 文本 数据 ， 必 须 确 保 要 进行 解码 和 编码 操作 。 
比如 : 


with open('somefile.bin', 'rb') as f: 
data = f.read(16) 
text = data.decode('utf-8') 


with open('somefile.bin', 'wb') as f: 
text = "Hello World' 
f.write(text.encode('utf-8')) 








二 进 制 VMO 还 有 一 个 鲜 为 人 知 的 特性 就 是 数组 和 C 结 构 体 类 型 能 直接 被 写 入 ， 而 不 需要 中 
间 转 换 为 自己 对 象 。 比 如 : 


import array 

nums = array.array('i', [1, 2, 3, 4]) 

with open('data.bin','wb') as f: 
f.write(nums) 





这 个 适用 于 任何 实现 了 被 称 之 为 "缓冲 接口 "的 对 象 ， 这 种 对 象 会 直接 暴露 其 底层 的 内 存 组 
冲 区 给 能 处 理 它 的 操作 。 二 进 制 数据 的 写 入 就 是 这 类 操作 之 一 。 




















很 多 对 象 还 允许 通过 使 用 文件 对 象 的 readinto() 方法 直接 读 取 二 进 制 数 据 到 其 底层 的 内 
存 中 去 。 比 如 : 


>>> import array 

>>> a = array.array('i', [6, ©, ©, ©, ©, ©, ©, @]) 

>>> with open('data.bin', 'rb') as f: 
f.readinto(a) 

16 

>>> a 

array('i', [1, 2, 3, 4, ©, ©, ©, @]) 

>>> 














但 是 使 用 这 种 技术 的 时 候 需要 格外 小 心 ， 因 为 它 通常 具有 平台 相关 性 ， 并 且 可 能 会 依赖 字 
长 和 字 节 顺序 (高 位 优先 和 低位 优先 )。 可 以 查看 5.9 小 节 中 另外 一 个 读 取 二 进 制 数据 到 可 
修改 缓冲 区 的 例子 。 





5.5 文件 不 存在 才能 写 入 


问题 








你 想像 一 个 文件 中 写 入 数据 ， 但 是 前 提 必 须 是 这 个 文件 在 文件 系统 上 不 存在 。 也 就 是 不 
允许 窗 盖 已 存在 的 文件 内 容 。 


解决 方案 


可 以 在 open) 函数 中 使 用 x 模式 来 代替 w 模式 的 方法 来 解决 这 个 问题 。 比 如 : 


>>> with open('somefile', ‘wt') as f: 
f.write('Hello\n') 


>>> with open('somefile', 'xt') as f: 
f.write('Hello\n') 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
FileExistsError: [Errno 17] File exists: 'somefile' 
>>> 





如 果 文 件 是 二 进 制 的 ， 使 用 xb KRE xt 


讨论 





这 一 小 节 演 示 了 在 写 文件 时 通常 会 遇 到 的 一 个 问题 的 完美 解决 方案 (不 小 心 履 盖 一 个 已 存 
在 的 文件 )。 一 个 替代 方案 是 先 测 试 这 个 文件 是 否 存在 ， 像 下 面 这 样 : 





>>> import os 
>>> if not os.path.exists('somefile'): 
with open('somefile’, ‘wt') as f: 
f.write('Hello\n') 
. else: 
print('File already exists!') 


File already exists! 
>>> 





显而易见 ， 使 用 x 文 件 模式 更 加 简单 。 要 注意 的 是 x 模 式 是 一 个 Python3 对 open) 函数 特 
有 的 扩展 。 在 Python 的 旧版 本 或 者 是 Python 实现 的 底层 C 函 数 库 中 都 是 没有 这 个 模式 
的 。 

















5.6 字符 串 的 MO 操作 
问题 


你 想 使 用 操作 类 文件 对 象 的 程序 来 操作 文本 或 二 进 制 字符 串 。 








使 用 io.stringIo() 和 io.BytesI0() 类 来 创建 类 文件 对 象 操作 字符 串 数据 。 比 如 : 


>>> s = io.StringI0() 

>>> s.write('Hello World\n' ) 

12 

>>> print('This is a test’, file=s) 

15 

>>> # Get all of the data written so far 
>>> s.getvalue() 

"Hello World\nThis is a test\n' 

>>> 


>>> # Wrap a file interface around an existing string 
>>> s = io.StringIO('Hello\nWorld\n' ) 

>>> s.read(4) 

"Hell' 

>>> s.read() 

"o\nWorld\n' 

>>> 


io.Stringlo 只 能 用 于 文本 。 如 果 你 要 操作 二 进 制 数据 ， 要 使 用 io.BytesIo 类 来 代替 。 
比如 : 





>>> s = io.BytesIO() 

>>> s.write(b'binary data’) 
>>> s.getvalue() 

b'binary data' 

>>> 


讨论 


当 你 想 模 拟 一 个 普通 的 文件 的 时 候 stringIo 和 BytesIo 类 是 很 有 用 的 。 比如 ， 在 单元 测 
试 中 ， 你 可 以 使 用 stringio 来 创建 一 个 包含 测试 数据 的 类 文件 对 象 ， 这 个 对 象 可 以 被 传 
给 某 个 参数 为 普通 文件 对 象 的 函数 。 





需要 注意 的 是 ， stringI0 和 BytesI0 A E 述 符 。 因 此 ， 
它们 不 能 在 那些 需要 使 用 真实 的 系统 级 文件 如 文件 ， 管 道 或 者 是 套 接 字 的 程序 中 使 用 。 











5.7 读 写 压缩 文件 
问题 


你 想 读 写 一 个 gzip 或 bz2 格 式 的 压缩 文件 。 














gzip 和 bz2 模块 可 以 很 容易 的 处 理 这 些 文件 。 两 个 模块 都 为 open() 函数 提供 了 另外 的 
实现 来 解决 这 个 问题 。 比如 ， 为 了 以 文本 形式 读 取 压 缩 文 件 ， 可 以 这 样 做 : 





# gzip compression 

import gzip 

with gzip.open('somefile.gz', ‘rt') as f: 
text = f.read() 


# bz2 compression 

import bz2 

with bz2.open('somefile.bz2', 'rt') as f: 
text = f.read() 





类 似 的 ， 为 了 写 入 压缩 数据 ， 可 以 这 样 做 : 


# gzip compression 

import gzip 

with gzip.open('somefile.gz', ‘wt') as f: 
f.write(text) 


# bz2 compression 

import bz2 

with bz2.open('somefile.bz2', ‘wt') as f: 
f.write(text) 


如 上 ， 所 有 的 MO 操作 都 使 用 文本 模式 并 执行 Unicode 的 编码 /解码 。 类 似 的， 如 果 你 想 操 
作 二 进 制 数据 ， 使 用 ro 或 者 wb 文件 模式 即 可 。 





讨论 








大 部 分 情况 下 读 写 压缩 数据 都 是 很 简单 的 。 但 是 要 注意 的 是 选择 一 个 正确 的 文件 模式 是 非 
常 重 要 的 。 如 果 你 不 指定 模式 ， 那 么 默认 的 就 是 二 进 制 模式 ， 如 果 这 时 候 程 序 想 要 接受 
的 是 文本 数据 ， 那 么 就 会 出 错 。 gzip.open() 和 bz2.open() 接受 跟 内 置 的 open() 函数 


一 样 的 参数 ， 包括 encoding » errors ， newline 等 等 。 








当 写 入 压缩 数据 时 ， 可 以 使 用 compresslevel 这 个 可 选 的 关键 字 参 数 来 指定 一 个 压缩 级 
别 。 比 如 : 


with gzip.open('somefile.gz', 'wt', compresslevel=5) as f: 
f.write(text) 








默认 的 等 级 是 >， 也 是 最 高 的 压缩 等 级 。 等 级 越 低 性 能 越 好 ， 但 是 数据 压缩 程度 也 越 低 。 





最 后 一 点 ， gzip.open() 和 bz2.open() 还 有 一 个 很 少 被 知道 的 特性 ， 它 们 可 以 作用 在 一 
个 已 存在 并 以 二 进 制 模式 打开 的 文件 上 。 比 如 ， 下 面 代码 是 可 行 的 : 








import gzip 

f = open('somefile.gz', 'rb') 

with gzip.open(f, 'rt') as g: 
text = g.read() 


这 样 就 允许 gzip 和 bz2 模块 可 以 工作 在 许多 类 文件 对 象 上 ， 比 如 套 接 字 ， 管 道 和 内 存 
中 文件 等 。 


5.8 固定 大 小 记录 的 文件 迭代 
问题 


你 想 在 一 个 固定 长 度 记录 或 者 数据 块 的 集合 上 迭代 ， 而 不 是 在 一 个 文件 中 一 行 一 行 的 迭 
Ko 





通过 下 面 这 个 小 技巧 使 用 iter 和 functools.partial() PA: 


from functools import partial 
RECORD_SIZE = 32 
with open('somefile.data’', 'rb') as f: 


records = iter(partial(f.read, RECORD SIZE), b‘') 
for r in records: 





这 个 例子 中 的 records HRE- AIER R, CRAMMER EAD NBER, E 
到 文件 末尾 。 要 注意 的 是 如 果 总 记录 大 小 不 是 块 大 小 的 整数 倍 的 话 ， 最 后 一 个 返回 元 素 
的 字 节 数 会 比 期 望 值 少 。 





讨论 


AR 
值 ， 它 会 创建 一 个 迭代 器 。 这 个 迭代 器 会 一 直 调 用 传 入 的 可 调用 对 象 直到 它 返 回 标记 值 
为 止 ， 这 时 候 友 代 终止。 





在 例子 中 ， functools.partial 用 来 创建 一 个 每 次 被 调用 时 从 文件 中 读 取 固定 数目 字 节 的 
可 调用 对 象 。 标记 值 bp 就 是 当 到 达 文 件 结尾 时 的 返回 值 。 












































点 ， 上 面 的 例子 中 的 文件 时 以 二 进 制 模式 打开 的 。 如 果 是 读 取 固 定 大 小 的 记 
普遍 的 情况 。 而 对 于 文本 文件 ， 一 行 一 行 的 读 取 (默认 的 迭代 行为 ) 更 普遍 


5.9 读 取 二 进 制 数据 到 可 变 缓 冲 区 中 
问题 


你 想 直接 读 取 二 进 制 数据 到 一 个 可 变 缓冲 区 中 ， 而 不 需要 做 任何 的 中 间 复 制 操作 。 或 者 
你 想 原 地 修改 数据 并 将 它 写 回 到 一 个 文件 中 去 。 





解决 方案 


为 了 读 取 数据 到 一 个 可 变数 组 中 ， 使 用 文件 对 象 的 readinto() 方法 。 比 如 : 


import os.path 


def read_into_buffer(filename): 
buf = bytearray(os.path.getsize(filename) ) 
with open(filename, 'rb') as f: 
f.readinto(buf) 
return buf 


下 面 是 一 个 演示 这 个 函数 使 用 方法 的 例子 : 


>>> # Write a sample file 
>>> with open('sample.bin', ‘wb') as f: 
f.write(b'Hello World’) 


>>> buf = read_into_buffer('sample.bin' ) 

>>> buf 

bytearray(b'Hello World") 

>>> buf[@:5] = b'Hallo' 

>>> buf 

bytearray(b'Hallo World") 

>>> with open('newsample.bin', ‘wb') as f: 
f.write(buf) 
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讨论 


文件 对 象 的 readinto() 方法 能 被 用 来 为 预先 分 配 内 存 的 数组 填充 数据 ， 甚 至 包括 由 
array 模块 或 numpy 库 创 建 的 数组 。 和 普通 read() 方法 不 同 的 是 ， readinto() 填充 已 
存在 的 缓冲 区 而 不 是 为 新 对 象 重 新 分 配 内 存 再 返回 它们 。 因 此 ， 你 可 以 使 用 它 来 避免 大 
量 的 内 存 分 配 操作 。 比 如， 如 果 你 读 取 一 个 由 相同 大 小 的 记录 组 成 的 二 进 制 文件 时 ， 你 
可 以 像 下 面 这 样 写 : 








record_size = 32 # Size of each record (adjust value) 


buf = bytearray(record_size) 
with open('somefile’, 'rb') as f: 
while True: 
n = f.readinto(buf) 
if n < record_size: 
break 
# Use the contents of buf 











另外 有 一 个 有 趣 特 性 就 是 memoryview ， 它 可 以 通过 零 复 制 的 方式 对 已 存在 的 缓冲 区 执行 
切片 操作 ， 甚 至 还 能 修改 它 的 内 容 。 比 如 : 


>>> buf 

bytearray(b'Hello World") 
>>> m1 = memoryview(buf) 
>>> m2 = m1[-5:] 

>>> m2 

<memory at 0x100681390> 
>>> m2[:] = b'WORLD' 

>>> buf 

bytearray(b'Hello WORLD') 
>>> 





使 用 f.readinto() 时 需要 注意 的 是 ， 你 必须 检查 它 的 返回 值 ， 也 就 是 实际 读 取 的 字 节 
数 。 





如 果 字 节 数 小 于 缓冲 区 大 小 ， 表 明 数 据 被 截断 或 者 被 破坏 了 (比如 你 期 望 每 次 读 取 指 定数 
EWF) 


最 后 ， 留 心 观察 其 他 函数 库 和 模块 中 和 into 相关 的 函数 (比如 recv_into() ， 
pack_into() 等 )。 Python 的 很 多 其 他 部 分 已 经 能 支持 直接 的 MO 或 数据 访问 操作 ， 这 些 操 
作 可 被 用 来 填充 或 修改 数组 和 缓冲 区 内 容 。 








关于 解析 二 进 制 结 构 和 memoryviews 使 用 方法 的 更 高 级 例子 ， 请 参考 6.12 小 节 。 


5.10 内 存 映射 的 二 进 制 文件 


问题 








你 想 内存 映 射 一 个 二 进 制 文件 到 一 个 可 变 字 节 数 组 中 ， 目 的 可 能 是 为 了 随机 访问 它 的 内 容 
或 者 是 原 地 做 些 修改 。 


解决 方案 





使 用 map 模块 来 内 存 映射 文件 。 下 面 是 一 个 工具 函数 ， 向 你 演示 了 如 何 打开 一 个 文件 并 
以 一 种 便捷 方式 内 存 映 射 这 个 文件 。 


import os 
import mmap 


def memory_map(filename, access=mmap.ACCESS_WRITE): 
size = os.path.getsize(filename) 
fd = os.open(filename, os.O_RDWR) 
return mmap.mmap(fd, size, access=access) 





为 了 使 用 这 个 函数 ， 你 需要 有 一 个 已 创建 并 且 内 容 不 为 空 的 文件 。 下 面 是 一 个 例子 ， 教 
你 怎样 初始 创建 一 个 文件 并 将 其 内 容 扩 充 到 指定 大 小 : 


>>> size = 1000000 

>>> with open('data', 'wb') as f: 
f.seek(size-1) 
f.write(b'\xe0e') 
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下 面 是 一 个 利用 | memory map() RAKA FERN SCE A AITF: 


>>> m = memory_map( ‘data’ ) 

>>> len(m) 

1000000 

>>> m[@:10] 
b*\x0@\x@0\x0@0\x00\x00\x00\x80\x00\x80\xe0 ' 
>>> m[6] 

0 

>>> # Reassign a slice 

>>> m[@:11] = b'Hello World’ 

>>> m.close() 


>>> # Verify that changes were made 
>>> with open('data', ‘rb') as f: 
. print(f.read(11)) 


b'Hello World' 
>>> 




















mmap() 返回 的 mmap 对 象 同样 也 可 以 作为 一 个 上 下 文 管理 器 来 使 用 ， 这 时 候 底 层 的 文件 
会 被 自动 关闭。 比如 : 








>>> with memory_map('data') as m: 
print(len(m)) 
print(m[0:12]) 

1000000 

b'Hello World' 

>>> m.closed 


True 
>>> 


默认 情况 下 ， memeory_map() 函数 打开 的 文件 同时 支持 读 和 写 操 作 。 任何 的 修改 内 容 都 会 
复制 回 原来 的 文件 中 。 如 果 需 要 只 读 的 访问 模式 ， 可 以 给 参数 access 赋值 为 


mmap.ACCESS READ 。 比 如 : 








m = memory_map(filename, mmap.ACCESS_ READ) 


如 果 你 想 在 本 地 修改 数据 ， 但 是 又 不 想 将 修改 写 回 到 原始 文件 中 ， 可 以 使 用 


mmap.ACCESS COPY : 


m = memory_map(filename, mmap.ACCESS_ COPY) 


讨论 


为 了 随机 访问 文件 的 内 容 ， 使 用 mmap 将 文件 映射 到 内 存 中 是 一 个 高 效 和 优雅 的 方法 。 例 


如 ， 你 无 需 打 开 一 个 文件 并 执行 大 量 的 seek() ， read() ， write() 调用 ， 只 需要 简单 
的 映射 文件 并 使 用 切片 操作 访问 数据 即 可 。 





RH, mapo 所 暴露 的 内 存 看 上 去 就 是 一 个 二 进 制 数组 对 象 。 但 是 ， 你 可 以 使 用 一 
个 内 存 视图 来 解析 其 中 的 数据 。 比 如 : 


>>> m = memory_map('data') 

>>> # Memoryview of unsigned integers 
>>> v = memoryview(m).cast('I') 

>>> v[@] = 7 

>>> m[@:4] 

b'\x@7\x@0\x00\xee' 

>>> m[@:4] = b'\x@7\x01\xe0e\xee' 

>>> v[e@] 

263 

>>> 





需要 强调 的 一 点 是 ， 内 存 映 射 一 个 文件 并 不 会 导致 整个 文件 被 读 取 到 内 存 中 。 也 就 是 
说 ， 文 件 并 没有 被 复制 到 内 存 缓存 或 数组 中 。 相 反 ， 操 作 系 统 仅仅 为 文件 内 容 保留 了 一 段 
虚拟 内 存 。 当 你 访问 文件 的 不 同 区 域 时 ， 这 些 区 域 的 内 容 才 根据 需要 被 读 取 并 映射 到 内 
存 区 域 中 。 而 那些 从 没 被 访问 到 的 部 分 还 是 留 在 磁盘 上 。 上 所 有 这 些 过 程 是 透明 的 ， 在 幕 
后 完成 ! 











如 果 多 个 Python 解释 器 内 存 上 映射 同一 个 文件 ， 得 到 的 mmap 对象 能 够 被 用 来 在 解释 器 直接 
交换 数据 。 也 就 是 说 ， 所 有 解释 器 都 能 同时 读 写 数据 ， 并 且 其 中 一 个 解释 器 所 做 的 修改 
会 自动 呈现 在 其 他 解释 器 中 。 很 明显 ， 这 里 需要 考虑 同步 的 问题 。 但 是 这 种 方法 有 时 候 
可 以 用 来 在 管道 或 套 接 字 间 传 递 数据 。 














这 一 小 节 中 函数 尽量 写 得 很 通用 ， 同 时 适用 于 Unix 和 Windows 平 台 。 要 注意 的 是 使 用 
marO 函数 时 会 在 底层 有 一 些 平台 的 差异 性 。 另 外， 还 有 一 些 选项 可 以 用 来 创建 匿名 的 
内 存 映 射 区 域 。 如 果 你 对 这 个 感 兴趣 ， 确 保 你 仔细 研读 了 Python 文档 中 这 方面 的 内 容 。 








5.11 文件 路 径 名 的 操作 
问题 


你 需要 使 用 路 径 名 来 获取 文件 名 ， 目 录 名 ， 绝 对 路 径 等 等 。 








使 用 os.path 模块 中 的 函数 来 操作 路 径 名 。 下 面 是 一 个 交互 式 例 子 来 演示 一 些 关 键 的 特 
PE 


>>> import os 
>>> path = '/Users/beazley/Data/data.csv' 


>>> # Get the Last component of the path 
>>> os.path.basename(path) 
"data.csv' 


>>> # Get the directory name 
>>> os.path.dirname (path) 
"/Users/beazley/Data' 


>>> # Join path components together 
>>> os.path.join('tmp', ‘data’, os.path.basename(path) ) 
"tmp/data/data.csv' 


>>> # Expand the user's home directory 
>>> path = '~/Data/data.csv' 

>>> os.path.expanduser (path) 
"/Users/beazley/Data/data.csv' 


>>> # Split the file extension 
>>> os.path.splitext(path) 
('~/Data/data', '.csv') 

>>> 


讨论 


对 于 任何 的 文件 名 的 操作 ， 你 都 应 该 使 用 os.path 模块 ， 而 不 是 使 用 标准 字符 串 操作 来 
构造 自己 的 代码 。 特 别 是 为 了 可 移植 性 考虑 的 时 候 更 应 如 此 ， 因 为 os.path 模块 知道 
Unix 和 Windows 系 统 之 间 的 差异 并 且 能 够 可 靠 地 处 理 类 似 pata/data.csv 和 
Data\data.csv 这 样 的 文件 名 。 其 次 ， 你 真 的 不 应 该 浪费 时 间 去 重复 造 轮子 。 通 常 最 好 是 
直接 使 用 已 经 为 你 准备 好 的 功能 。 


























要 注意 的 是 os.path 还 有 更 多 的 功能 在 这 里 并 没有 列举 出 来 。 可 以 查阅 官方 文档 来 获取 
更 多 与 文件 测试 ， 符 号 链接 等 相关 的 函数 说 明 。 


5.12 测试 文件 是 个 存 在 


问题 





你 想 测试 一 个 文件 或 目录 是 否 存在 。 


解决 方案 


使 用 os.path 模块 来 测试 一 个 文件 或 目录 是 否 存在 。 比 如 : 


>>> import os 

>>> os.path.exists('/etc/passwd' ) 
True 

>>> os.path.exists('/tmp/spam' ) 
False 

>>> 





你 还 能 进一步 测试 这 个 文件 时 什么 类 型 的 。 在 下 面 这 些 测试 中 ， 如 果 测 试 的 文件 不 存在 
的 时 候 ， 结 果 都 会 返回 False: 


>>> # Is a regular file 
>>> os.path.isfile('/etc/passwd' ) 
True 


>>> # Is a directory 
>>> os.path.isdir('/etc/passwd' ) 
False 


>>> # Is a symbolic Link 
>>> os.path.islink('/usr/local/bin/python3' ) 
True 


>>> # Get the file Linked to 

>>> os.path.realpath('/usr/local/bin/python3' ) 
"/usr/local/bin/python3.3' 

>>> 





如 果 你 还 想 获取 元 数据 (比如 文件 大 小 或 者 是 修改 日 期 )， 也 可 以 使 用 os.path 模块 来 解 
决 : 


>>> os.path.getsize('/etc/passwd') 

3669 

>>> os.path.getmtime('/etc/passwd' ) 
1272478234.0 

>>> import time 

>>> time.ctime(os.path.getmtime('/etc/passwd')) 
"Wed Apr 28 13:10:34 2010" 

>>> 


讨论 











使 用 os.path 来 进行 文件 测试 是 很 简单 的 。 在 写 这 些 脚本 时 ， 可 能 唯一 需要 注意 的 就 是 
你 需要 考虑 文件 权限 的 问题 ， 特 别 是 在 获取 元 数据 时 候 。 比 如 : 





>>> os.path.getsize('/Users/guido/Desktop/foo.txt') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/genericpath.py", line 49, in getsize 
return os.stat(filename).st_size 
PermissionError: [Errno 13] Permission denied: '/Users/guido/Desktop/foo.txt' 
>>> 


5.13 获取 文件 夹 中 的 文件 列表 


问题 





你 想 获取 文件 系统 中 某 个 目录 下 的 所 有 文件 列表 。 


解决 方案 


使 用 os.listdir() 函数 来 获取 某 个 目录 中 的 文件 列表 : 


import os 
names = os.listdir('somedir' ) 








会 返回 目录 中 所 有 文件 列表 ， 包 括 所 有 文件 ， 子 目录 ， 符 号 链接 等 等 。 如 果 你 需 
career 才 滤 数据 ， 可 以 考虑 结合 os.path 库 中 的 一 些 函数 来 使 用 列表 推导 。 比 


如 : 


import os.path 


# Get all regular files 
names = [name for name in os.listdir('somedir' ) 
if os.path.isfile(os.path.join('somedir', name))] 


# Get all dirs 
dirnames = [name for name in os.listdir('somedir' ) 
if os.path.isdir(os.path.join('somedir', name))] 








字符 串 的 startswith() 和 endswith() 方法 对 于 过 滤 一 个 目录 的 内 容 也 是 很 有 用 的 。 比 
如 : 


pyfiles = [name for name in os.listdir('somedir' ) 
if name.endswith('.py')] 


对 于 文件 名 的 匹配 ， 你 可 能 会 考虑 使 用 glob 或 fnmatch 模块 。 比 如 : 


import glob 
pyfiles = glob.glob('somedir/*.py') 


from fnmatch import fnmatch 
pyfiles = [name for name in os.listdir('somedir') 
if fnmatch(name, '*.py')] 


讨论 








获取 目录 中 的 列表 是 很 容易 的 ， 但 是 其 返回 结果 只 是 目录 中 实体 名 列表 而 已 。 如 果 你 还 
想 获取 其 他 的 元 信息 ， 比 如 文件 大 小 ， 修 改 时 间 等 等 ， 你 或 许 还 需要 使 用 到 os.path 模 





块 中 的 函数 或 着 os.stat() 函数 来 收集 数据 。 比 如 : 


# Example of getting a directory Listing 
import os 

import os.path 

import glob 


pyfiles = glob.glob('*.py') 


# Get file sizes and modification dates 


name_sz_date = [(name, os.path.getsize(name), os.path.getmtime(name)) 


for name in pyfiles] 
for name, size, mtime in name_sz_ date: 
print(name, size, mtime) 


# Alternative: Get file metadata 
file_metadata = [(name, os.stat(name)) for name in pyfiles] 
for name, meta in file_metadata: 

print(name, meta.st_size, meta.st_mtime) 




















最 后 还 有 一 点 要 注意 的 就 是 ， 有 时 候 在 处 理 文 件 名 编码 问题 时 候 可 能 会 出 现 一 些 问 题 。 
通常 来 讲 ， 函 数 os.listdir() 返回 的 实体 列表 会 根据 系统 默认 的 文件 名 编码 来 解码 。 但 


























问题 ， 





是 有 时 候 也 会 碰 到 一 些 不 能 正常 解码 的 文件 名 。 关于 文件 名 的 处 理 
节 有 更 详细 的 讲解 。 


5.14 忽略 文件 名 编码 


问题 


在 5.14 和 5.15 小 


你 想 使 用 原始 文件 名 执行 文件 的 MO 操作 ， 也 就 是 说 文件 名 并 没有 经 过 系统 默认 编码 去 解 


码 或 编码 过 。 





默认 情况 下 ， 所 有 的 文件 名 都 会 根据 sys.getfilesystemencoding() 返回 的 文本 编码 来 编码 
或 解码 。 比 如 : 


>>> sys.getfilesystemencoding() 








'utf-8' 
如 果 因 为 某 种 原因 你 想 忽略 这 种 编码 ， 可 以 使 用 一 个 原始 字 节 字符 串 来 指定 一 个 文件 名 即 
可 。 比 如 : 


>>> # Wrte a file using a unicode filename 

>>> with open('jalape\xflo.txt', 'w') as f: 
f.write('Spicy!') 

6 

>>> # Directory Listing (decoded) 

>>> import os 


>>> os. listdir('.') 
[ 'jalapefo.txt'] 


>>> # Directory Listing (raw) 
>>> os.listdir(b'.') # Note: byte string 
[b'jalapen\xcc\x830.txt' ] 


>>> # Open file with raw filename 

>>> with open(b'jalapen\xcc\x830.txt') as f: 
print(f.read()) 

Spicy! 

>>> 


正如 你 所 见 ， 在 最 后 两 个 操作 中 ， 当 你 给 文件 相关 函数 如 open) 和 os.listdir() 传递 
字 节 字符 串 时 ， 文 件 名 的 处 理 方式 会 稍 有 不 同 。 




















讨论 








， 有 些 操作 系统 允许 用 户 通过 偶然 或 恶意 方式 去 创建 名 字 不 符合 默认 编码 的 文件 。 这 
些 文件 名 可 能 会 神秘 地 中 断 那 些 需 要 处 理 大 量 文 件 的 Python 程序 。 














通常 来 讲 ， 你 不 需要 担心 文件 名 的 编码 和 解码 ， 普 通 的 文件 名 操作 应 该 就 没 问题 了 。 但 
是 
止 
































读 取 目 录 并 通过 原始 未 解码 方式 处 理 文件 名 可 以 有 效 的 避免 这 样 的 问题 ， 尽管 这 样 会 带 
来 一 定 的 编程 难度 。 


关于 打印 不 可 解码 的 文件 名 ， 请 参考 5.15 小 节 。 


5.15 打印 不 合法 的 文件 名 


问题 





你 的 程序 获取 了 一 个 目录 中 的 文件 名 列表 ， 但 是 当 它 试 着 去 打印 文件 名 的 时 候 程 序 裔 溃 ， 





出 现 了 UnicodeEncodeError 异常 和 一 条 奇怪 的 消息 一 一 surrogates not allowed 。 
解决 方案 


当 打 印 未 知 的 文件 名 时 ， 使 用 下 面 的 方法 可 以 避免 这 样 的 错误 : 


def bad_filename(filename): 
return repr(filename)[1:-1] 


try: 
print(filename) 

except UnicodeEncodeError: 
print(bad_filename(filename) ) 


讨论 


这 一 小 节 讨论 的 是 在 编写 必须 处 理 文件 系统 的 程序 时 一 个 不 太 常 见 但 又 很 棘手 的 问题 。 
默认 情况 下 ， Python 假定 所 有 文件 名 都 已 经 根据 sys.getfilesystemencoding() 的 值 编 码 
过 了 。 但 是 ， 有 一 些 文件 系统 并 没有 强制 要 求 这 样 做 ， 因 此 允许 创建 文件 名 没有 正确 编 
人 码 的 文件 。 这 种 情况 不 太 常见 ， 但 是 总 会 有 些 用 户 冒 险 这 样 做 或 者 是 无 音 之 中 这 样 做 了 ( 
可 能 是 在 一 个 有 缺陷 的 代码 中 给 open() 函数 传递 了 一 个 不 合 规范 的 文件 名 )。 




















当 执 行 类 似 os.listdir() 这 样 的 函数 时 ， 这 些 不 合 规范 的 文件 名 就 会 让 Python 陷入 困 
Si. 一 方面 ， 它 不 能 仅仅 只 是 丢弃 这 些 不 合格 的 名 字 。 而 另 一 方面 ， 它 又 不 能 将 这 些 文 
件 名 转换 为 正确 的 文本 字符 串 。 Python 对 这 个 问题 的 解决 方案 是 从 文件 名 中 获取 未 解码 
的 字 节 值 比 如 \xhh 并 将 它 映 射 成 Unicode 字 符 \udchh 表示 的 所 谓 的 "代理 编码 ”。 下 面 
一 个 例子 演示 了 当 一 个 不 合格 目录 列表 中 含有 一 个 文件 名 为 bad.txt( 使 用 Latin-1 而 不 是 
UTF-8 编 码 ) 时 的 样子 : 























>>> import os 

>>> files = os.listdir('.') 

>>> files 

['spam.py', ‘b\udce4d.txt', ‘'foo.txt'] 
>>> 








如 果 你 有 代码 需要 操作 文件 名 或 者 将 文件 名 传递 给 open) 这 样 的 函数 ， 一 切 都 能 正常 工 
作 。 只 有 当 你 想 要 输出 文件 名 时 才 会 磁 到 些 麻 烦 ( 比 如 打印 输出 到 屏幕 或 日 志文 件 等 )。 特 
别 的 ， 当 你 想 打 印 上 面 的 文件 名 列表 时 ， 你 的 程序 就 会 月 省 : 


>>> for name in files: 
print (name) 
spam.py 
Traceback (most recent call last): 
File "<stdin>", line 2, in <module> 
UnicodeEncodeError: ‘utf-8' codec can't encode character '\udce4' in 


position 1: surrogates not allowed 
>>> 























m 


程序 崩溃 的 原因 就 是 字符 \udce4 是 一 个 非法 的 Unicode 字 符 。 它 其 实 是 一 个 被 称 为 代理 
字符 对 的 双 字 符 组 合 的 后 半 部 分 。 由 于 缺少 了 前 半 部 分 ， 因 此 它 是 个 非法 的 Unicode。 所 
以 ， 唯 一 能 成 功 输出 的 方法 就 是 当 遇 到 不 合法 文件 名 时 采取 相应 的 补救 措施 。 比如 可 以 
将 上 述 代码 修改 如 下 : 





>>> for name in files: 
. try: 
print (name) 
. except UnicodeEncodeError: 
print(bad_filename(name) ) 
spam. py 
b\udce4d.txt 


foo.txt 
>>> 








在 bad_filename() 函数 中 怎样 处 置 取 决 于 你 自己 。 另外 一 个 选择 就 是 通过 茶 种 方式 重新 
编码 ， 示 例如 下 : 





def bad_filename(filename): 
temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape' ) 
return temp.decode('‘latin-1') 


译 者 注 : 


surrogateescape: 

这 种 是 Python 在 绝 大 部 分 面向 0S 的 API 中 所 使 用 的 错误 处 理 器 ， 

它 能 以 一 种 优雅 的 方式 处 理由 操作 系统 提供 的 数据 的 编码 问题 。 

在 解码 出 错时 会 将 出 错字 节 存 储 到 一 个 很 少 被 使 用 到 的 Unicode 编 码 范围 内 。 

































































































































































在 编码 时 将 那些 隐藏 值 又 还 原 回 原先 解码 失败 的 字 节 序列 。 
它 不 仅 对 于 0S API 非 常 有 用 ， 也 能 很 容易 的 处 理 其 他 情况 下 的 编码 错误 。 


























使 用 这 个 版 本 产生 的 输出 如 下 : 


>>> for name in files: 
try: 
print(name) 
except UnicodeEncodeError: 
print(bad_filename(name) ) 
spam.py 
bad.txt 


foo.txt 
>>> 


这 一 小 节 主 题 可 能 会 被 大 部 分 读者 所 忽略 。 但 是 如 果 你 在 编写 依赖 文件 名 和 文件 系统 的 关 
键 任务 程序 时 ， 就 必须 得 考虑 到 这 个 。 否 则 你 可 能 会 在 某 个 周末 被 叫 到 办 公 室 去 调试 一 
些 令 人 费解 的 错误 。 





5.16 增加 或 改变 已 打开 文件 的 编码 
问题 


你 想 在 不 关闭 一 个 已 打开 的 文件 前 提 下 增加 或 改变 它 的 Unicode 编 码 。 





如 果 你 想 给 一 个 以 二 进 制 模式 打开 的 文件 添加 Unicode 编 码 / 解 码 方 式 ， 可 以 使 用 
io.TextIOWrapper() 对 象 包装 它 。 比 如 : 





import urllib.request 
import io 


u = urllib.request.urlopen( http://www. python.org') 
f = io.TextIOWrapper(u, encoding='utf-8' ) 
text = f.read() 


如 果 你 想 修改 一 个 已 经 打开 的 文本 模式 的 文件 的 编码 方式 ， 可 以 先 使 用 detach() 方法 移 
除 掉 已 存在 的 文本 编码 层 ， 并 使 用 新 的 编码 方式 代替 。 下 面 是 一 个 在 sys.stdout 上 修改 
编码 方式 的 例子 : 





>>> import sys 

>>> sys.stdout.encoding 

"UTF-8' 

>>> sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='latin-1') 
>>> sys.stdout.encoding 

‘latin-1' 

>>> 








这 样 做 可 能 会 中 断 你 的 终端 ， 这 里 仅仅 是 为 了 演示 而 已 。 


讨论 


MO 系统 由 一 系列 的 层次 构建 而 成 。 你 可 以 试 着 运行 下 面 这 个 操作 一 个 文本 文件 的 例子 来 
查看 这 种 层次 : 


>>> f = open('sample.txt','w') 

>>> f 

<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> f.buffer 

<_io.BufferedWriter name='sample.txt'> 

>>> f.buffer.raw 

<_io.FileIO name='sample.txt' mode='wb'> 

>>> 





在 这 个 例子 中 ， io.TextIOWrapper 是 个 编码 和 解码 Unicode 的 文本 处 理 层 ， 
io.Bufferedwriter 是 一 个 处 理 二 进 制 数 据 的 带 缓冲 的 |/O 层 ， io.FileiIo 是 一 个 表示 操作 
系统 底层 文件 描述 符 的 原始 文件 。 增加 或 改变 文本 编码 会 涉及 增加 或 改变 最 上 面 的 


io.TextIOWrapper 层 。 




















— 






































一 般 来 讲 ， 像 上 面 例子 这 样 通过 访问 属性 值 来 直接 操作 不 同 的 层 是 很 不 安全 的 。 例如 ， 





如 果 你 试 着 使 用 下 面 这 样 的 技术 改变 编码 看 看 会 发 生 什么 


>>> f 
<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> f = io.TextIOWrapper(f.buffer, encoding='latin-1' ) 
>>> f 
<_io.TextIOWrapper name='sample.txt' encoding='latin-1'> 
>>> f.write('Hello') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: I/O operation on closed file. 
>>> 











结果 出 错 了 ， 因 为 f 的 原始 值 已 经 被 破坏 了 并 关闭 了 底层 的 文件 。 











detach() 方法 会 断 开 文件 的 最 顶层 并 返回 第 二 层 ， 之 后 最 顶层 就 没什么 用 了 。 例 如 : 


>>> f = open('sample.txt'’, ‘w') 
>>> f 
<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> b = f.detach() 
>>> b 
<_io.BufferedWriter name='sample.txt'> 
>>> f.write('hello') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: underlying buffer has been detached 
>>> 


一 旦 断 开 最 顶层 后 ， 你 就 可 以 给 返回 结果 添加 一 个 新 的 最 顶层 。 比 如 : 


>>> f = io.TextIOWrapper(b, encoding='latin-1') 

>>> f 

<_io.TextIOWrapper name='sample.txt' encoding='latin-1'> 
>>> 

















尽管 已 经 向 你 演示 了 改变 编码 的 方法 ， 但 是 你 还 可 以 利用 这 种 技术 来 改变 文件 行 处 至 























错误 机 制 以 及 文件 处 理 的 其 他 方面 。 例 如 : 





>>> sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='ascii’, 
wee errors='xmlcharrefreplace' ) 

>>> print('Jalape\ug@e@Ffi1o' ) 
Jalape&#241;0 

>>> 


注意 下 最 后 输出 中 的 非 AsCll 字 符 是 如 何 被 g#241; 取代 的 。 


5.17 将 字 节 写 入 文本 文件 
问题 


你 想 在 文本 模式 打开 的 文件 中 写 入 原始 的 字 节 数据 。 


将 字 节 数据 直接 写 入 文件 的 缓冲 区 即 可 ， 例 如 : 


>>> import sys 
>>> sys.stdout.write(b'Hello\n') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: must be str, not bytes 
>>> sys.stdout.buffer.write(b'Hello\n') 
Hello 
5 
>>> 





类 似 的， 能 够 通过 读 取 文 本 文件 的 buffer 属性 来 读 取 二 进 制 数据 。 


讨论 








MO 系统 以 层级 结构 的 形式 构建 而 成 。 文 本 文件 是 通过 在 一 个 拥有 缓冲 的 二 进 制 模式 文件 
上 增加 一 个 Unicode 编 码 /解码 层 来 创建 。 buffer 属性 指向 对 应 的 底层 文件 。 如 果 你 直接 
访问 它 的 话 就 会 绕 过 文本 编码 /解码 层 。 








本 小 节 例 子 展示 的 sys.stdout 可 能 看 起 来 有 点 特殊 。 默认 情况 下 ， sys.stdout 总 是 以 文 
本 模式 打开 的 。 但 是 如 果 你 在 写 一 个 需要 打印 二 进 制 数据 到 标准 输出 的 脚本 的 话 ， 你 可 
以 使 用 上 面 演示 的 技术 来 绕 过 文本 编码 层 。 





5.18 将 文件 措 述 符 包 装 成 文件 对 象 


问题 





你 有 一 个 对 应 于 操作 系统 上 一 个 已 打开 的 MO 通道 (比如 文件 、 管 道 、 套 接 字 等 ) 的 整 型 文 
件 描 述 符 ， 你 想 将 它 包 装 成 一 个 更 高 层 的 Python 文件 对 象 。 


解决 方案 


一 个 文件 描述 符 和 一 个 打开 的 普通 文件 是 不 一 样 的 。 文 件 描述 符 仅 仅 是 一 个 由 操作 系统 
指定 的 整数 ， 用 来 指 代 某 个 系统 的 MO 通道 。 如 果 你 碰巧 有 这 么 一 个 文件 描述 符 ， 你 可 以 
通过 使 用 open() 函数 来 将 其 包装 为 一 个 Python 的 文件 对 象 。 你 仅仅 只 需要 使 用 这 个 整 
数值 的 文件 描述 符 作 为 第 一 个 参数 来 代替 文件 名 即 可 。 例 如 ; 





# Open a Low-Level file descriptor 
import os 
fd = os.open('somefile.txt', os.O_WRONLY | os.0_CREAT) 


# Turn into a proper file 
f = open(fd, ‘wt') 
f.write('hello world\n' ) 
f.close() 


ee 
不 是 你 想 要 的 ， 你 可 以 给 open() 函数 传递 一 个 可 选 的 colsefd=False o 比如 : 


# Create a file object, but don't close underlying fd when done 
f = open(fd, ‘wt', closefd=False) 


讨论 





在 Unix 系 统 中 ， 这 种 包装 文件 描述 符 的 技术 可 以 很 方便 的 将 一 个 类 文件 接口 作用 于 一 个 以 
不 同方 式 打开 的 I/O 通 道上 ， 如 管道 、 套 接 字 等 。 举 例 来 讲 ， 下 面 是 一 个 操作 管道 的 例 
F: 








from socket import socket, AF_INET, SOCK_STREAM 


def echo_client(client_sock, addr): 
print('Got connection from', addr) 


# Make text-mode file wrappers for socket reading/writing 
client_in = open(client_sock.fileno(), 'rt', encoding='latin-1', 
closefd=False) 


client_out = open(client_sock.fileno(), ‘wt’, encoding='latin-1', 
closefd=False) 


# Echo Lines back to the client using file I/O 
for line in client_in: 

client_out.write(line) 

client_out.flush() 


client_sock.close() 


def echo_server(address): 
sock = socket(AF_INET, SOCK_STREAM) 
sock.bind(address) 
sock. listen(1) 
while True: 
client, addr = sock.accept() 
echo_client(client, addr) 














需要 重点 强调 的 一 点 是 ， 上 面 的 例子 仅仅 是 为 了 演示 内 置 的 open() 函数 的 一 个 特性 ， 并 
且 也 只 适用 于 基于 Unix 的 系统 。 如 果 你 想 将 一 个 类 文件 接口 作用 在 一 个 套 接 字 并 希望 你 
的 代码 可 以 跨 平台 ， 请 使 用 套 接 字 对 象 的 makefile() 方法 。 但 是 如 果 不 考 虑 可 移植 性 的 
话 ， 那 上 面 的 解决 方案 会 比 使 用 makefile() 性 能 更 好 一 点 。 








你 也 可 以 使 用 这 种 技术 来 构造 一 个 别名 ， 允 许 以 不 同 于 第 一 次 打开 文件 的 方式 使 用 它 。 
例如 ， 下 面 演示 如 何 创建 一 个 文件 对 象 ， 它 允许 你 输出 二 进 制 数据 到 标准 输出 (通常 以 文 
本 模式 打开 ): 





import sys 

# Create a binary-mode file for stdout 

bstdout = open(sys.stdout.fileno(), ‘wb', closefd=False) 
bstdout.write(b'Hello World\n') 

bstdout.flush() 








尽管 可 以 将 一 个 已 存在 的 文件 描述 符 包装 成 一 个 正常 的 文件 对 象 ， 但 是 要 注意 的 是 并 不 
是 所 有 的 文件 模式 都 被 支持 ， 并 且 某 些 类 型 的 文件 描述 符 可 能 会 有 副作用 (特别 是 涉及 到 
普 误 处 理 、 文 件 结尾 条 件 等 等 的 时 候 )。 在 不 同 的 操作 系统 上 这 种 行为 也 是 不 一 样 ， 特 别 
的 ， 上 面 的 例子 都 不 能 在 非 Unix 系 统 上 运行 。 我 说 了 这 么 多 ， 意 思 就 是 让 你 充分 测试 自 
己 的 实现 代码 ， 确 保 它 能 按照 期 望 工作 。 



































5.19 创建 临时 文件 和 文件 夹 


问题 





你 需要 在 程序 执行 时 创建 一 个 临时 文件 或 目录 ， 并 希望 使 用 完 之 后 可 以 自动 销毁 挥 。 








tempfile 模块 中 有 很 多 的 函数 可 以 完成 这 任务 。 为 了 创建 一 个 匿名 的 临时 文件 ， 可 以 使 


用 tempfile.TemporaryFile |: 


from tempfile import TemporaryFile 


with TemporaryFile('w+t') as f: 
# Read/write to the file 
f.write('Hello World\n' ) 
f.write('Testing\n') 


# Seek back to beginning and read the data 
f.seek(Q) 
data = f.read() 


# Temporary file is destroyed 


或 者 ， 如 果 你 喜欢 ， 你 还 可 以 像 这 样 使 用 临时 文件 : 


f = TemporaryFile('w+t') 
# Use the temporary file 
f.close() 

# File is destroyed 


TemporaryFile() 的 第 一 个 参数 是 文件 模式 ， 通 常 来 讲 文本 模式 使 用 wrt ， 二 进 制 模式 使 
用 web 。 这 个 模式 同时 支持 读 和 写 操 作 ， 在 这 里 是 很 有 用 的 ， 因 为 当 你 关闭 文件 去 改变 
模式 的 时 候 ， 文 件 实际 上 已 经 不 存在 了 。 TemporaryFile() 另外 还 支持 跟 内 置 的 open) 

函数 一 样 的 参数 。 比 如 ; 











with TemporaryFile('w+t', encoding='utf-8', errors='ignore') as f: 


在 大 多 数 Unix 系 统 上 ， 通 过 TemporaryFile() 创建 的 文件 都 是 匿名 的 ， 甚至 连 目 录 都 没 
有 。 如 果 你 想 打 破 这 个 限制 ， 可 以 使 用 NamedTemporaryFile() 来 代替 。 比 如 : 








from tempfile import NamedTemporaryFile 


with NamedTemporaryFile('w+t') as f: 
print('filename is:', f.name) 


# File automatically destroyed 





这 里 ， 被 打开 文件 的 f.name 属性 包含 了 该 临时 文件 的 文件 名 。 当 你 需要 将 文件 名 传递 给 
其 他 代码 来 打开 这 个 文件 的 时 候 ， ATARA Ti 和 TemporaryFile() 一 样 ， 结 果 文 件 
关闭 时 会 被 自动 删除 掉 。 如 果 你 不 想 这 么 做 ， 可 以 传递 一 个 关键 字 参 数 delte=False 即 
可 。 比 如 : 


with NamedTemporaryFile('w+t', delete=False) as f: 
print('filename is:', f.name) 


为 了 创建 一 个 临时 目录 ， 可 以 使 用 temptile.TemporaryDirectory() o LUM: 


from tempfile import TemporaryDirectory 
with TemporaryDirectory() as dirname: 
print('dirname is:', dirname) 


# Use the directory 


# Directory and all contents destroyed 

















TemporaryFile() ~ NamedTemporaryFile() 和 TemporaryDirectory() PRA Dire MDE la AY 
文件 目录 的 最 简单 的 方式 了 ， 因 为 它们 会 自动 处 理 所 有 的 创建 和 清理 步骤 。 在 一 个 更 低 
的 级 别 ， 你 可 以 使 用 mkstemp() 和 mkdtemp() 来 创建 临时 文件 和 目录 。 比 如 : 









































>>> import tempfile 

>>> tempfile.mkstemp() 

(3, '/var/folders/7W/7WZ15sfZEFO@p1jrEB1UMWE+++TI/-Tmp-/tmp7fefhv' ) 
>>> tempfile.mkdtemp() 
"/var/folders/7W/7WZ15sfZEF@p1jrEB1UMWE+++TI/-Tmp-/tmp5wvcv6" 

>>> 























但 是 ， 这 些 函 数 并 不 会 做 进一步 的 管理 了 。 例 如， 函数 mkstemp() 仅仅 就 返回 一 个 原始 
的 OS 文 件 描述 符 ， 你 需要 自己 将 它 转换 为 一 个 真正 的 文件 对 象 。 同样 你 还 需要 自己 清理 
这 些 文 件 。 




















通常 来 讲 ， 临 时 文件 在 系统 默认 的 位 置 被 创建 ， 比 如 /varytnp 或 类 似 的 地 方 。 为 了 获取 
真实 的 位 置 ， 可 以 使 用 tempfile.gettempdir() 函数 。 比 如 : 


>>> tempfile.gettempdir() 
"/var/folders/7W/7WZ15sfZEF@p1jrEB1UMWE+++TI/-Tmp-' 
>>> 


所 有 和 临时 文件 相关 的 函数 都 允许 你 通过 使 用 关键 字 参 数 prefix 、 suffix 和 dir RA 
定义 目录 以 及 命名 规则 。 比 如 : 


>>> f = NamedTemporaryFile(prefix='mytemp', suffix='.txt', dir='/tmp') 
>>> f.name 

'/tmp/mytemp8ee899.txt' 

>>> 





最 后 还 有 一 点 ， 尽 可 能 以 最 安全 的 方式 使 用 tempfile 模块 来 创建 临时 文件 。 包 括 仅 给 当 
前 用 户 授权 访问 以 及 在 文件 创建 过 程 中 采取 措施 避免 竞 态 条 件 。 要 注意 的 是 不 同 的 平台 
可 能 会 不 一 样 。 因 此 你 最 好 阅读 官方 文档 来 了 解 更 多 的 细节 。 





5.20 与 串 行 端口 的 数据 通信 


问题 





你 想 通过 串 行 端口 读 写 数据 ， 典 型 场景 就 是 和 一 些 硬 件 设 备 打交道 (比如 一 个 机 器 人 或 传 











尽管 你 可 以 通过 使 用 Python 内 置 的 MO 模块 来 完成 这 个 任务 ， 但 对 于 串 行 通信 最 好 的 选择 
是 使 用 pySerial 包 。 这 个 包 的 使 用 非常 简单 ， 先 安装 pySerial， 使 用 类 似 下 面 这 样 的 代码 
就 能 很 容易 的 打开 一 个 串 行 端口 : 


import serial 
ser = serial.Serial('/dev/tty.usbmodem641', # Device name varies 
baudrate=9680, 
bytesize=8, 
parity='N', 
stopbits=1) 


设备 名 对 于 不 同 的 设备 和 操作 系统 是 不 一 样 的 。 比如 ， 在 Windows 系 统 上 ， 你 可 以 使 用 0， 
1 等 表示 的 一 个 设备 来 打开 通信 端口 "COM0”" 和 ”COM1”。 一 旦 端口 打开 ， 那 就 可 以 使 用 
read() ， readline() 和 write() 函数 读 写 数据 了 。 例如 : 





ser.write(b'G1 X50 Y50\r\n') 
resp = ser.readline() 


大 多 数 情况 下 ， 简 单 的 串口 通信 从 此 变 得 十 分 简单 。 


讨论 


尽管 表面 上 看 起 来 很 简单 ， 其 实 串口 通信 有 时 候 也 是 挺 麻烦 的 。 推荐 你 使 用 第 三 方 包 如 
pyserial 的 一 个 原因 是 它 提供 了 对 高 级 特性 的 支持 (比如 超时 ， 控 制 流 ， 缓 冲 区 刷新 ， 握 
手 协 议 等 等 )。 举 个 例子 ， 如 果 你 想 启用 Rrs-cTs 握手 协议 ， 你 只 需要 给 serial() 传递 
一 个 rtscts=True 的 参数 即 可 。 其 官方 文档 非常 完善 ， 因 此 我 在 这 里 极力 推荐 这 个 包 。 














时 刻 记 住所 有 涉及 到 串口 的 VO 都 是 二 进 制 模 式 的 。 因 此 ， 确 保 你 的 代码 使 用 的 是 字 节 而 
不 是 文本 (或 有 时 候 执 行文 本 的 编码 /解码 操作 )。 另外 当 你 需要 创建 二 进 制 编码 的 指令 或 
数据 包 的 时 候 ， struct 模块 也 是 非常 有 用 的 。 





5.21 序列 化 Python 对 象 


问题 





你 需要 将 一 个 Python 对 象 序 列 化 为 一 个 字 节 流 ， 以 便 将 它 保存 到 一 个 文件 、 存 储 到 数据 
库 或 者 通过 网 络 传输 它 。 


解决 方案 














对 于 序列 化 最 普遍 的 做 法 就 是 使 用 pickle 模块 。 为 了 将 一 个 对 象 保存 到 一 个 文件 中 ， 可 
以 这 样 做 : 


import pickle 
data = ... # Some Python object 


f = open('somefile', 'wb') 
pickle.dump(data, f) 


为 了 将 一 个 对 象 转 储 为 一 个 字符 串 ， 可 以 使 用 pickle.dumps() : 


s = pickle.dumps(data) 


为 了 从 字 节 流 中 恢复 一 个 对 象 ， 使 用 picle.load() 或 pickle.loads() 函数 。 比 如 ; 


# Restore from a file 
f = open('somefile', 'rb') 
data = pickle.load(f) 


# Restore from a string 
data = pickle.loads(s) 


讨论 


对 于 大 多 数 应 用 程序 来 讲 ， dump() 和 load() 函数 的 使 用 就 是 你 有 效 使 用 pickle 模块 所 
需 的 全 部 了 。 它 可 适用 于 绝 大 部 分 Python 数据 类 型 和 用 户 自 定义 类 的 对 象 实例 。 如 果 你 
碰 到 某 个 库 可 以 让 你 在 数据 库 中 保存 /恢复 Python 对 象 或 者 是 通过 网 络 传输 对 象 的 话 ， 那 
么 很 有 可 能 这 个 库 的 底层 就 使 用 了 pickle 模块 。 











pickle 是 一 种 Python 特有 的 自 描述 的 数据 编码 。 通过 自 描 述 ， 被 序列 化 后 的 数据 包含 每 
个 对 象 开 始 和 结束 以 及 它 的 类 型 信息 。 因 此 ， 你 无 需 担 心 对 象 记 录 的 定义 ， 它 总 是 能 
feo 举 个 例子 ， 如 果 要 处 理 多 个 对 象 ， 你 可 以 这 样 做 : 




















>>> import pickle 

>>> f = open('somedata’, ‘wb') 
>>> pickle.dump([1, 2, 3, 4], f) 
>>> pickle.dump('hello', f) 

>>> pickle.dump({'Apple', ‘Pear’, ‘Banana'}, f) 
>>> F.close() 

>>> f = open('somedata’, 'rb') 
>>> pickle.load(Ff) 

lis 2; 35 4] 

>>> pickle.load(Ff) 

'hello' 

>>> pickle.load(f) 

{'Apple', 'Pear', 'Banana'} 

>>> 


你 还 能 序列 化 函数 ， 类 ， 还 有 接口 ， 但 是 结果 数据 仅仅 将 它们 的 名 称 编码 成 对 应 的 代码 对 
象 。 例 如 : 


>>> import math 

>>> import pickle. 

>>> pickle.dumps(math.cos) 
b'\x80\x@3cmath\ncos\nqg\x@e@. ' 
>>> 


当 数 据 有 反 序列 化 回来 的 时 候 ， 会 先 假定 所 有 的 源 数据 时 可 用 的 。 模 块 、 类 和 函数 会 自动 
按 需 导入 进来 。 对 于 Python 数据 被 不 同 机 器 上 的 解析 器 所 共享 的 应 用 程序 而 言 ， 数 据 的 
保存 可 能 会 有 问题 ， 因 为 所 有 的 机 器 都 必须 访问 同一 个 源 代 码 。 











注 





干 万 不 要 对 不 信任 的 数据 使 用 pickle.1oad()。 

pickle 在 加 载 时 有 一 个 副作用 就 是 它 会 自动 加 载 相 应 模块 并 构造 实例 对 象 。 
但 是 某 个 坏人 如 果 知 道 pickle 的 工作 原理 ， 
他 就 可 以 创建 一 个 恶意 的 数据 导致 python 执 行 随 意 指定 的 系统 命令 。 

因此 ， 一 定 要 保证 pickle 只 在 相互 之 间 可 以 认证 对 方 的 解析 器 的 内 部 使 用 。 




























































































有 些 类 型 的 对 象 是 不 能 被 序列 化 的 。 这 些 通 常 是 那些 依赖 外 部 系统 状态 的 对 象 ， 比如 打 
开 的 文件 ， 网 络 连接 ， 线 程 ， 进 程 ， 栈 帧 等 等 。 用 户 自 定义 类 可 以 通过 提供 
__getstate_() 和 _setstate _() 方法 来 绕 过 这 些 限 制 。 如果 定义 了 这 两 个 方 

法 ， pickle.dump() 就 会 调用 _getstate_() 获取 序列 化 的 对 象 。 类 似 

的 ， _setstate_() 在 反 序 列 化 时 被 调用 。 为 了 演示 这 个 工作 原理 ， 下 面 是 一 个 在 内 部 


定义 了 一 个 线程 但 仍然 可 以 序列 化 和 反 序 列 化 的 类 : 


























# countdown. py 
import time 
import threading 


class Countdown: 
def __init__(self, n): 
self.n =n 
self.thr = threading. Thread(target=self.run) 
self.thr.daemon = True 
self.thr.start() 


def run(self): 
while self.n > @: 
print('T-minus', self.n) 
self.n -= 
time.sleep(5) 


def __getstate__(self): 
return self.n 


def __setstate__(self, n): 
self.__init__(n) 


试 着 运行 下 面 的 序列 化 试验 代码 ; 


>>> import countdown 

>>> c = countdown.Countdown(36) 
>>> T-minus 30 

T-minus 29 

T-minus 28 


>>> # After a few moments 

>>> f = open('cstate.p', ‘wb') 
>>> import pickle 

>>> pickle.dump(c, f) 

>>> F.close() 


然后 退出 Python 解 析 器 并 重启 后 再 试验 下 : 





>>> f = open('cstate.p', 'rb') 

>>> pickle.load(f) 

countdown.Countdown object at 6x16669e2d6> 
T-minus 19 

T-minus 18 








你 可 以 看 到 线程 又 奇迹 般 的 重生 了 ， 从 你 第 一 次 序列 化 它 的 地 方 又 恢复 过 来 。 





pickle 对 于 大 型 的 数据 结构 比如 使 用 array 或 numpy 模块 创建 的 二 进 制 数组 效率 并 不 
是 一 个 高 效 的 编码 方式 。 如 果 你 需要 移动 大 量 的 数组 数据 ， 你 最 好 是 先 在 一 个 文件 中 将 
其 保存 为 数组 数据 块 或 使 用 更 高 级 的 标准 编码 方式 如 HDF5 (需要 第 三 方 库 的 支持 )。 

















由 于 pickle 是 Python 特有 的 并 且 附 着 在 源码 上 ， 所 有 如 果 需 要 长 期 存储 数据 的 时 候 不 应 
该 选用 它 。 例 如， 如 果 源 码 变动 了 ， 你 所 有 的 存储 数据 可 能 会 被 破坏 并 且 变 得 不 可 读 
取 。 坦 白 来 讲 ， 对 于 在 数据 库 和 存档 文件 中 存储 数据 时 ， 你 最 好 使 用 更 加 标准 的 数据 编 
码 格式 如 XML，CSV 或 JSJON。 这 些 编码 格式 更 标准 ， 可 以 被 不 同 的 语言 支持 ， 并 且 也 能 
很 好 的 适应 源码 变更 。 














最 后 一 点 要 注意 的 是 pickle 有 大 量 的 配置 选项 和 一 些 环 手 的 问题 。 对 于 最 常见 的 使 用 场 
景 ， 你 不 需要 去 担心 这 个 ， 但 是 如 果 你 要 在 一 个 重要 的 程序 中 使 用 pickle 去 做 序列 化 的 
话 ， 最 好 去 查阅 一 下 官方 文档 。 


第 六 章 : 数据 编码 和 处 理 
这 一 章 主要 讨论 使 用 Python 处 理 各 种 不 同方 式 编码 的 数据 ， 比 如 CSV 文 件 ，JSON，XML 


和 二 进 制 包装 记录 。 和 数据 结构 那 一 章 不 同 的 是 ， 这 章 不 会 讨论 特殊 的 算法 问题 ， 而 是 
关注 于 怎样 获取 和 存储 这 些 格 式 的 数据 。 












































Contents: 
6.1 读 写 CSV 数 据 
问题 


你 想 读 写 一 个 CSV 格 式 的 文件 。 


解决 方案 


对 于 大 多 数 的 CSV 格 式 的 数据 读 写 问题 ， 都 可 以 使 用 csv 库 。 例 如 : 假设 你 在 一 个 名 叫 
stocks.csv 文 件 中 有 一 些 股 票 市 场 数 据 ， 就 像 这 样 : 


Symbol, Price,Date, Time, Change, Volume 

"AA", 39.48, "6/11/2007", "9:36am", -@.18, 181800 
"AIG", 71.38, "6/11/2007","9:36am",-9.15,195500 
"AXP", 62.58, "6/11/2007","9:36am",-0.46, 935000 
"BA", 98.31,"6/11/2007","9:36am",+0.12, 104800 
"C",53.08, "6/11/2007", "9:36am", -8.25, 360900 
"CAT", 78.29, "6/11/2007","9: 36am", -0.23, 225400 





下 面向 你 展示 如 何 将 这 些 数据 读 取 为 一 个 元 组 的 序列 : 


import csv 
with open('stocks.csv') as f: 
f_csv = csv.reader(f) 
headers = next(f_csv) 
for row in f_csv: 
# Process row 





在 上 面 的 代码 中 ， row 会 是 一 个 元 组 。 因 此 ， 为 了 访问 某 个 字段 ， 你 需要 使 用 下 标 ， 如 
row[@] 访问 Symbol， row[4] 访问 Change。 





由 于 这 种 下 标 访问 通常 会 引起 混淆 ， 你 可 以 考虑 使 用 命名 元 组 。 例 如 : 


from collections import namedtuple 
with open('stock.csv') as f: 
f_csv = csv.reader(f) 
headings = next(f_csv) 
Row = namedtuple('Row', headings) 
for r in f_csv: 
row = Row(*r) 
# Process row 


它 允 许 你 使 用 列 名 如 row.symbol 和 row.change 代替 下 标 访问 。 需要 注意 的 是 这 个 只 有 
在 列 名 是 合法 的 Python 标识 符 的 时 候 才 生效 。 如 果 不 是 的 话 ， 你 可 能 需要 修改 下 原始 的 
列 名 (如 将 非 标识 符 字 符 蔡 换 成 下 划 线 之 类 的 )。 


另外 一 个 选择 就 是 将 数据 读 取 到 一 个 字典 序列 中 去 。 可 以 这 样 做 : 


import csv 
with open('stocks.csv') as f: 
f_csv = csv.DictReader(f) 
for row in f_csv: 
# process row 





在 这 个 版 本 中 ， 你 可 以 使 用 列 名 去 访问 每 一 行 的 数据 了 。 比 如 ，| rawf'synboi'] 或 者 


row[ 'Change'] œ 


为 了 写 入 CSV 数 据 ， 你 仍然 可 以 使 用 csv 模 块 ， 不 过 这 时 候 先 创建 一 个 writer WR. Pil 
如 : 


headers = ['Symbol','Price','Date','Time', 'Change', 'Volume' ] 

rows = [('AA', 39.48, '6/11/2007', '9:36am', -@.18, 181800), 
(‘AIG', 71.38, '6/11/2007', ‘9:36am’, -@.15, 195500), 
('AXP', 62.58, '6/11/2007', '9:36am', -@.46, 935000), 


with open('stocks.csv','w') as f: 
f_csv = csv.writer(f) 
f_csv.writerow(headers) 
f_csv.writerows (rows) 


如 果 你 有 一 个 字典 序列 的 数据 ， 可 以 像 这 样 做 : 


headers = ['Symbol', 'Price', 'Date', 'Time', ‘Change’, "Volume ] 

rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007', 
"Time':'9:36am', 'Change':-@.18, 'Volume' :181800}, 
{'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007', 
"Time':'9:36am', 'Change':-@.15, 'Volume': 195500}, 
{'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007', 
"Time':'9:36am', 'Change':-@.46, 'Volume': 935000}, 
] 


with open('stocks.csv','w') as f: 
f_csv = csv.DictWriter(f, headers) 
f_csv.writeheader() 
f_csv.writerows (rows) 





你 应 该 总 是 优先 选择 csv 模 块 分 割 或 解析 CSV 数 据 。 例 如 ， 你 可 能 会 像 编 写 类 似 下 面 这 样 
的 代码 : 


with open('stocks.csv') as f: 
for line in f: 

row = line.split(',') 

# process row 











IERP A SU NR A BL GR eg BE Ah — ER AT TH el. 比如 ， 如 果 茶 些 
字段 值 被 引号 包围 ， 你 不 得 不 去 除 这 些 引 号 。 另外 ， 如 果 一 个 被 引号 包围 的 字段 碰巧 含 
有 一 个 逗号， 那么 程序 就 会 因为 产生 一 个 错误 大 小 的 行 而 出 错 。 








默认 情况 下 ， csv 库 可 识别 Microsoft Excel 所 使 用 的 CSV 编 码 规则 。 这 或 许 也 是 最 常见 的 
形式 ， 并 且 也 会 给 你 带 来 最 好 的 兼容 性 。 然而 ， 如 果 你 查看 csv 的 文档 ， 就 会 发 现 有 很 多 
种 方法 将 它 应 用 到 其 他 编码 格式 上 (如 修改 分 割 字 符 等 )。 例 如 ， 如 果 你 想 读 取 以 tab 分 割 
的 数据 ， 可 以 这 样 做 : 














# Example of reading tab-separated values 
with open('stock.tsv') as f: 
f tsv = csv.reader(f, delimiter='\t') 
for row in f_tsv: 
# Process row 


如 果 你 正在 读 取 CSV 数 据 并 将 它们 转换 为 命名 元 组 ， 需 要 注意 对 列 名 进行 合法 性 认证 。 例 
如 ， 一 个 CSV 格 式 文 件 有 一 个 包含 非法 标识 符 的 列 头 行 ， 类 似 下 面 这 样 : 








这 样 最 终 会 导致 在 创建 一 个 命名 元 组 时 产生 一 个 valueError 异常 而 失败 。 为 了 解决 这 问 
上 十， 你 可 能 不 得 不 先 去 修正 列 标题 。 例 如 ， 可 以 像 下 面 这 样 在 非法 标识 符 上 使 用 一 个 正 
WW AIA TAS HR: 


import re 
with open('stock.csv') as f: 
f_csv = csv.reader(f) 
headers = [ re.sub('[*a-zA-Z_]', '_', h) for h in next(f_csv) ] 
Row = namedtuple('Row', headers) 
for r in f_csv: 
row = Row(*r) 
# Process row 


还 有 重要 的 一 点 需要 强调 的 是 ，csv 产 生 的 数据 都 是 字符 串 类 型 的 ， 它 不 会 做 任何 其 他 类 
型 的 转换 。 如 果 你 需要 做 这 样 的 类 型 转换 ， 你 必须 自己 手动 去 实现 。 下 面 是 一 个 在 CSV 
数据 上 执行 其 他 类 型 转换 的 例子 : 


col types = [str, float, str, str, float, int] 
with open('stocks.csv') as f: 
f_csv = csv.reader(f) 
headers = next(f_csv) 
for row in f_csv: 
# Apply conversions to the row items 
row = tuple(convert(value) for convert, value in zip(col_types, row) ) 


另外 ， 下 面 是 一 个 转换 字典 中 特定 字段 的 例子 ; 


print('Reading as dicts with type conversion’) 
field_types = [ ('Price', float), 

('Change', float), 

('Volume', int) ] 


with open('stocks.csv') as f: 
for row in csv.DictReader(f): 
row.update((key, conversion(row[key])) 
for key, conversion in field types) 
print (row) 


通常 来 讲 ， 你 可 能 并 不 想 过 多 去 考虑 这 些 转换 问题 。 在 实际 情况 中 ，CSV 文 件 都 或 多 或 少 
有 些 缺 失 的 数据 ， 被 破坏 的 数据 以 及 其 它 一 些 让 转换 失败 的 问题 。 因此， 除非 你 的 数据 

确实 有 保障 是 准确 无 误 的 ， 否 则 你 必须 考虑 这 些 问题 (你 可 能 需要 增加 合适 的 错误 处 理 机 

制 ) 。 


























最 后 ， 如 果 你 读 取 CSV 数 据 的 目的 是 做 数据 分 析 和 统计 的 话 ， 你 可 能 需要 看 一 看 Pandas 
包 。 Pandas 包含 了 一 个 非常 方便 的 函数 叫 pandas.read_csv() ， 它 可 以 加 载 CSV 数 据 到 
一 个 DataFrame 对 象 中 去 。 然后 利用 这 个 对 象 你 就 可 以 生成 各 种 形式 的 统计 、 过 滤 数 据 
以 及 执行 其 他 高 级 操作 了 。 在 6.13 小 节 中 会 有 这 样 一 个 例子 。 


6.2 i£ 5 JSONA Hi 
问题 


你 想 读 写 JSON(JavaScript Object Notation) 编 码 格式 的 数据 。 


ERIT R 





json 模块 提供 了 一 种 很 简单 的 方式 来 编码 和 解码 JSON 数 据 。 其 中 两 个 主要 的 函数 是 
json.dumps() 和 json.loads() > 要 比 其 他 序列 化 函数 库 如 pickle 的 接口 少 得 多 。 下 面 演 
示 如 何 将 一 个 Python 数据 结构 转换 为 JSJON: 


import json 

data = { 
'name' : 'ACME', 
"shares' : 100, 
"price’ : 542.23 

} 


json_str = json.dumps(data) 


下 面 演示 如 何 将 一 个 JSON 编 码 的 字符 串 转 换 回 一 个 Python 数据 结构 : 


data = json.loads(json_str) 











如 果 你 要 处 理 的 是 文件 而 不 是 字符 串 ， 你 可 以 使 用 json.dump() 和 json.load() 来 编码 和 
解码 JSON 数 据 。 例 如 : 





# Writing JSON data 
with open('data.json', 'w') as f: 
json.dump(data, f) 


# Reading data back 
with open('data.json', 'r') as f: 
data = json.load(f) 


讨论 


JSON 编 码 支 持 的 基本 数据 类 型 为 None ， bool ， int ; float 和 str |> 以 及 包含 这 
些 类 型 数据 的 lists，tuples 和 dictionaries。 对 于 dictionaries，keys 需 要 是 字符 串 类 型 (字典 
中 任何 非 字 符 串 类 型 的 key 在 编码 时 会 先 转换 为 字符 串 )。 为 了 遵循 JJON 规 范 ， 你 应 该 只 
编码 Python 的 lists 和 dictionaries。 而 且 ， 在 web 应 用 程序 中 ， 顶 层 对 象 被 编码 为 一 个 字典 
是 一 个 标准 做 法 。 








JSON 编 码 的 格式 对 于 Python 语法 而 已 几乎 是 完全 一 样 的 ， 除 了 一 些小 的 差异 之 外 。 比 
如 ，True 会 被 映射 为 true，False 被 映射 为 false， 而 None 会 被 映射 为 null。 下 面 是 一 个 例 
子 ， 演 示 了 编码 后 的 字符 串 效果 : 








>>> json.dumps(False) 
"false' 
>>> d = {'a': True, 
*b*? Hello’, 
ie "c': None} 
>>> json.dumps(d) 
"{"b": "Hello", "c": null, "a": true}' 
>>> 


如 果 你 试 着 去 检查 JSON 解 码 后 的 数据 ， 你 通常 很 难 通 过 简单 的 打印 来 确定 它 的 结构 ， 特 
别 是 当 数 据 的 柑 套 结构 层次 很 深 或 者 包含 大 量 的 字段 时 。 为 了 解决 这 个 问题 ， 可 以 考虑 
使 用 pprint 模 块 的 pprint() 函数 来 代替 普通 的 print() 函数 。 它 会 按照 key 的 字母 顺序 
并 以 一 种 更 加 美观 的 方式 输出 。 下 面 是 一 个 演示 如 何 漂 亮 的 打印 输出 Twitter 上 搜索 结果 
的 例子 : 














>>> from urllib.request import urlopen 

>>> import json 

>>> u = urlopen('http://search.twitter.com/search.json?q=python&rpp=5' ) 
>>> resp = json.loads(u.read().decode('utf-8')) 

>>> from pprint import pprint 

>>> pprint(resp) 

{'completed_in': 0.074, 

"max_id': 264043230692245504, 

"max_id_str': '264043230692245504', 

"next_page': ' ?page=2&max_id=264043230692245504&q=python&rpp=5', 


‘page’: 1, 
"query': ‘python’, 
"refresh_url': '?since_id=264043230692245504&q=python' , 


‘results': [{'created_at': 'Thu, 01 Nov 2012 16:36:26 +0000', 
"from_user': 
hs 
{'created_at': ‘Thu, @1 Nov 2012 16:36:14 +0000', 
"from_user': 
J 
{'created_at': 'Thu, @1 Nov 2012 16:36:13 +0000', 
'from_user': 
}s 
{'created_at': 'Thu, @1 Nov 2012 16:36:07 +0000', 
"from_user': 
} 
{'created_at': 'Thu, @1 Nov 2012 16:36:04 +0000', 
"from_user': 
]]， 

"results_per_page': 5, 

"since_id': 9， 

"since_id_str': '@'} 

>>> 





一 般 来 讲 ，JSON 解 码 会 根据 提供 的 数据 创建 dicts 或 lists。 如 果 你 想 要 创建 其 他 类 型 的 对 
象 ， 可 以 给 json.loads() 传递 object_pairs_hook 或 object_hook 参 数 。 例 如 ， 下 面 是 演示 
如 何 解 码 JSON 数 据 并 在 一 个 OrderedDict 中 保留 其 顺序 的 例子 : 


>>> S= "name": "ACME", "shares": 50, "price": 490.1}' 

>>> from collections import OrderedDict 

>>> data = json.loads(s, object_pairs_hook=0rderedDict) 

>>> data 

OrderedDict([('name', 'ACME'), ('‘shares', 50), (‘price', 490.1)]) 
>>> 


下 面 是 如 何 将 一 个 JSON 字 典 转 换 为 一 个 Python 对 象 例子 : 


>>> class JSONObject: 
def __init__(self, d): 
self. dict =d 


>>> 
>>> data = json.loads(s, object hook=JSONObject) 
>>> data.name 

' ACME ' 

>>> data.shares 

50 

>>> data.price 

490.1 

>>> 


最 后 一 个 例子 中 ，JSON 解 码 后 的 字典 作为 一 个 单个 参数 传递 给 _init_() 。 然 后 ， 你 
就 可 以 随心 所 欲 的 使 用 它 了 ， 比 如 作为 一 个 实例 字典 来 直接 使 用 它 。 


在 编码 JSON 的 时 候 ， 还 有 一 些 选 项 很 有 用 。 如 果 你 想 获 得 漂亮 的 格式 化 字符 串 后 输出 ， 
可 以 使 用 json.dumps() 的 indent 参 数 。 它 会 使 得 输出 和 pprint() 函 数 效果 类 似 。 比 如 : 


>>> print(json.dumps(data) ) 
{"price": 542.23, "name": "ACME", "shares": 100} 
>>> print(json.dumps(data, indent=4) ) 


{ 
"price": 542.23, 
"name": "ACME", 
"shares": 100 

} 

>>> 


对 象 实例 通常 并 不 是 JSON 可 序列 化 的 。 例 如 : 


>>> class Point: 
def __init__(self, x, y): 
self.x = x 
self.y =y 


>>> p = Point(2, 3) 
>>> json.dumps(p) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/json/__init__.py", line 226, in dumps 
return _default_encoder.encode(obj) 
File "/usr/local/lib/python3.3/json/encoder.py", line 187, in encode 
chunks = self.iterencode(o, _one_shot=True) 
File "/usr/local/lib/python3.3/json/encoder.py", line 245, in iterencode 
return _iterencode(o, @) 
File "/usr/local/lib/python3.3/json/encoder.py", line 169, in default 
raise TypeError(repr(o) + " is not JSON serializable") 
TypeError: <__main__.Point object at 0x1006f2650> is not JSON serializable 
>>> 


如 果 你 想 序列 化 对 象 实例 ， 你 可 以 提供 一 个 函数 ， 它 的 输入 是 一 个 实例 ， 返 回 一 个 可 序列 
化 的 字典 。 例 如 : 


def serialize_instance(obj): 
d = { '__classname__' 
d.update(vars(obj) ) 


return d 


: type(obj).__name_ } 





如 果 你 想 反 过 来 获取 这 个 实例 ， 可 以 这 样 做 : 


# Dictionary mapping names to known classes 
classes = { 
"Point" : Point 


def unserialize_object(d): 


clsname = d.pop('__classname__ 
if clsname: 


> None) 


cls = classes[clsname] 
obj = cls.__new__(cls) # Make instance without calling __init__ 
for key, value in d.items(): 
setattr(obj, key, value) 
return obj 
else: 
return d 


下 面 是 如 何 使 用 这 些 函 数 的 例子 : 


>>> p = Point(2,3) 

>>> s = json.dumps(p, default=serialize_ instance) 
>>> S 

'{"__classname__": "Point", "y": 3, "x": 2}' 

>>> a = json.loads(s, object_hook=unserialize_object) 
>>> a 

<__main__.Point object at @x1017577d@> 

>>> a.xX 

2 

>>> a.y 

3 

>>> 








json 模块 还 有 很 多 其 他 选项 来 控制 更 低级 别 的 数字 、 特 殊 值 如 NaN 等 的 解析 。 可 以 参考 
官方 文档 获取 更 多 细节 。 


6.3 解析 简单 的 XML 数据 
问题 


你 想 从 一 个 简单 的 XML 文档 中 提取 数据 。 


解决 方案 


可 以 使 用 xml.etree.ElementTree 模块 从 简单 的 XML 文档 中 提取 数据 。 为 了 演示 ， 假 设 你 
想 解 析 Planet Python 上 的 RSS 源 。 下 面 是 相应 的 代码 : 


from urllib.request import urlopen 
from xml.etree.ElementTree import parse 


# Download the RSS feed and parse it 
u = urlopen('http://planet.python.org/rss20.xml1' ) 
doc = parse(u) 


# Extract and output tags of interest 
for item in doc.iterfind('channel/item'): 
title = item.findtext('title') 
date = item.findtext('pubDate’ ) 
link = item.findtext('link') 


print(title) 
print(date) 
print(link) 
print() 





运行 上 面 的 代码 ， 输 出 结果 类 似 这 样 : 


Steve Holden: Python for Data Analysis 
Mon, 19 Nov 2012 62:13:51 +0000 
http: //holdenweb.blogspot.com/2012/11/python-for-data-analysis. html 


Vasudev Ram: The Python Data model (for v2 and v3) 
Sun, 18 Nov 2012 22:06:47 +0000 
http://jugad2.blogspot.com/2012/11/the-python-data-model. html 


Python Diary: Been playing around with Object Databases 
Sun, 18 Nov 2012 20:40:29 +0000 
http: //www.pythondiary.com/blog/Nov.18,2012/been-...-object-databases.html 


Vasudev Ram: Wakari, Scientific Python in the cloud 
Sun, 18 Nov 2012 20:19:41 +0000 
http: //jugad2.blogspot.com/2012/11/wakari-scientific-python-in-cloud.html 


Jesse Jiryu Davis: Toro: synchronization primitives for Tornado coroutines 
Sun, 18 Nov 2012 20:17:49 +0000 
http: //feedproxy.google.com/-r/EmptysquarePython/~3/_DOZT2Kd@hQ/ 

















很 显然 ， 如 果 你 想 做 进一步 的 处 理 ， 你 需要 丛 换 print() 语句 来 完成 其 他 有 趣 的 事 。 























在 很 多 应 用 程序 中 处 理 XML 编 码 格式 的 数据 是 很 常见 的 。 不 仅 因 为 XML 在 Internet 上 面 已 
经 被 广泛 应 用 于 数据 交换 ， 同 时 它 也 是 一 种 存储 应 用 程序 数据 的 常用 格式 (比如 字 处 理 
音乐 库 等 )。 接 下 来 的 讨论 会 先 假定 读者 已 经 对 XML 基 础 比较 熟悉 了 。 























> 





在 很 多 情况 下 ， 当 使 用 XML 来 仅仅 存储 数据 的 时 候 ， 对 应 的 文档 结构 非常 紧凑 并 且 直 观 。 
例如 ， 上 面 例子 中 的 RSS 订 阅 源 类 似 于 下 面 的 格式 : 


<?xml version="1.0"?> 
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/"> 
<channel> 

<title>Planet Python</title> 

<link>http://planet.python.org/</link> 

<language>en</language> 

<description>Planet Python - http://planet.python.org/</description> 

<item> 
<title>Steve Holden: Python for Data Analysis</title> 
<guid>http://holdenweb.blogspot.com/...-data-analysis.html</guid> 
<link>http://holdenweb.blogspot.com/...-data-analysis.html</link> 
<description>...</description> 
<pubDate>Mon, 19 Nov 2012 02:13:51 +@000</pubDate> 

</item> 

<item> 
<title>Vasudev Ram: The Python Data model (for v2 and v3)</title> 
<guid>http://jugad2.blogspot.com/...-data-model.html</guid> 
<link>http://jugad2.blogspot.com/...-data-model.html</link> 
<description>...</description> 
<pubDate>Sun, 18 Nov 2012 22:06:47 +@000</pubDate> 

</item> 

<item> 
<title>Python Diary: Been playing around with Object Databases</title> 
<guid>http://www.pythondiary.com/...-object-databases.html</guid> 
<link>http://www.pythondiary.com/...-object-databases.html</link> 
<description>...</description> 
<pubDate>Sun, 18 Nov 2012 20:40:29 +@000</pubDate> 

</item> 


</channel> 
</rss> 


xml.etree.ElementTree.parse() 国 数 解析 整个 XML 文档 并 将 其 转换 成 一 个 文档 对 象 。 然 
后 ， 你 就 能 使 用 find() ~ iterfind() 和 | findtext() 等 方法 来 搜索 特定 的 XML 元 素 了 。 
这 些 函 数 的 参数 就 是 某 个 指定 的 标签 名 ， 例 如 channel/item 或 title o 














每 次 指定 某 个 标签 时 ， 你 需要 遍历 整个 文档 结构 。 每 次 搜索 操作 会 从 一 个 起 始 元 素 开始 进 
行 。 同 样 ， 每 次 操作 所 指定 的 标签 名 也 是 起 始 元 素 的 相对 路 径 。 例 如 ， 执 行 
doc.iterfind('channel/item') 来 搜索 所 有 在 channel 元 素 下 面 的 item 元 素 。 doc 代表 
文档 的 最 顶层 (也 就 是 第 一 级 的 rss 元 素 )。 然后 接 下 来 的 调用 item.findtext() 会 从 已 找 
到 的 item 元 素 位 置 开 始 搜索 。 











ElementTree 模块 中 的 每 个 元 素 有 一 些 重 要 的 属性 和 方法 ， 在 解析 的 时 候 非 常 有 用 。 tag 
属性 包含 了 标签 的 名 字 ， text 属性 包含 了 内 部 的 文本 ， 而 get() 方法 能 获取 属性 值 。 例 
如 : 








>>> doc 
<xml.etree.ElementTree.ElementTree object at @x101339510> 
>>> e = doc.find('channel/title' ) 
>>> e 

<Element ‘title’ at @x10135b310> 
>>> e.tag 

'title' 

>>> e.text 

'Planet Python' 

>>> e.get('some_attribute') 

>>> 


有 一 点 要 强调 的 是 xml.etree.ElementTree 并 不 是 XML 解析 的 唯一 方法 。 对 于 更 高 级 的 应 
用 程序 ， 你 需要 考虑 使 用 1xml 。 它 使 用 了 和 ElementTree 同 样 的 编程 接口 ， 因 此 上 面 的 


例子 同样 也 适用 于 lxml。 你 只 需要 将 刚 开始 的 import 语 句 换 成 
from lxml.etree import parse 就 行 了 。 lxml 完全 遵循 XML 标准 ， 并 且 速 度 也 非常 快 ， 
同时 还 支持 验证 ，XSLT， 和 XPath 等 特性 。 


6.4 增 量 式 解 析 大 型 XML 文件 
问题 


你 想 使 用 尽 可 能 少 的 内 存 从 一 个 超大 的 XML 文档 中 提取 数据 。 














任何 时 候 只 要 你 遇 到 增 量 式 的 数据 处 理 时 ， 第 一 时 间 就 应 该 想到 迭代 器 和 生成 器 。 下 面 
是 一 个 很 简单 的 函数 ， 只 使 用 很 少 的 内 存 就 能 增 量 式 的 处 理 一 个 大 型 XML 文件 : 


























from xml.etree.ElementTree import iterparse 


def parse_and_remove(filename, path): 
path_parts = path.split('/') 
doc = iterparse(filename, ('start', ‘end')) 
# Skip the root element 
next (doc) 


tag stack = [] 
elem_stack = [] 
for event, elem in doc: 
if event == ‘start’: 
tag _stack.append(elem.tag) 
elem_stack.append(elem) 
elif event == ‘end’: 
if tag stack == path_parts: 
yield elem 
elem_stack[-2].remove(elem) 
try: 
tag stack.pop() 
elem_stack.pop() 
except IndexError: 
pass 


为 了 测试 这 个 函数 ， 你 需要 先 有 一 个 大 型 的 XML 文件 。 通常 你 可 以 在 政府 网 站 或 公共 数 
据 网 站 上 找到 这 样 的 文件 。 例如， 你 可 以 下 载 XML 格式 的 芝加哥 城市 道路 坑 洼 数据 库 。 
在 写 这 本 书 的 时 候 ， 下 载 文件 已 经 包含 超过 100,000 行 数据 ， 编 码 格式 类 似 于 下 面 这 样 : 


假设 你 想 写 一 个 脚本 来 按照 坑 洼 报告 数量 排列 邮编 号 码 。 你 可 以 像 这 样 做 : 


from xml.etree.ElementTree import parse 
from collections import Counter 


potholes by zip = Counter() 


doc = parse('potholes.xml') 
for pothole in doc.iterfind('row/row'): 
potholes _by_zip[pothole.findtext('zip')] += 1 
for zipcode, num in potholes _by_zip.most_common(): 
print(zipcode, num) 


这 个 脚本 唯一 的 问题 是 它 会 先 将 整个 XML 文件 加 载 到 内 存 中 然后 解析 。 在 我 的 机 器 上 ， 
为 了 运行 这 个 程序 需要 用 到 450MB 左 右 的 内 存 空间 。 如 果 使 用 如 下 代码 ， 程 序 只 需要 修 
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from collections import Counter 
potholes by zip = Counter() 


data = parse_and_remove('potholes.xml', ‘row/row' ) 
for pothole in data: 
potholes _by_zip[pothole.findtext('zip')] += 1 
for zipcode, num in potholes _by_zip.most_common(): 
print(zipcode, num) 


结果 是 : 这 个 版 本 的 代码 运行 时 只 需要 7MB 的 内 存 - 大 大 节约 了 内 存 资源 。 


讨论 


这 一 节 的 技术 会 依赖 ElementTree 模块 中 的 两 个 核心 功能 。 第 一 ， iterparse() 方法 允许 
对 XML 文档 进行 增 量 操作 。 使 用 时 ， 你 需要 提供 文件 名 和 一 个 包含 下 面 一 种 或 多 种 类 型 
的 事件 列表 :” start , end, start-ns 和 end-ns 。 由 iterparse() Gill EIA AR BEE 
形 如 (event, elem) 的 元 组 ， 其 中 event 是 上 述 事件 列表 中 的 某 一 个 ， 而 elem 是 相应 
的 XML 元 素 。 例 如 ; 








>>> data = iterparse('potholes.xml',('start','end')) 
>>> next (data) 

('start', <Element ‘response’ at @x100771d60>) 

>>> next(data) 

('start', <Element ‘row’ at @x100771e68>) 

>>> next (data) 

('start', <Element 'row' at @x100771fc8>) 

>>> next(data) 

('start', <Element 'creation date' at 0x100771f18>) 
>>> next (data) 

('end', <Element ‘creation_date' at 0x100771f18>) 
>>> next(data) 

('start', <Element ‘status’ at 0x1006a7f18>) 

>>> next (data) 

('end', <Element ‘status’ at 0x1006a7f18>) 

>>> 











start 事件 在 某 个 元 素 第 一 次 被 创建 并 且 还 没有 被 插入 其 他 数据 (如 子 元 素 ) 时 被 创建 。 而 
end 事件 在 某 个 元 素 已 经 完成 时 被 创建 。 尽 管 没 有 在 例子 中 演示 ， start-ns 和 end-ns 
事件 被 用 来 处 理 XML 文 档 命 名 空间 的 声明 。 



































这 本 节 例 子 中 ， start 和 end 事件 被 用 来 管理 元 素 和 标签 栈 。 栈 代 表 了 文档 被 解析 时 的 
层次 结构 ， 还 被 用 来 判断 某 个 元 素 是 否 匹 配 传 给 函数 parse_and_remove() 的 路 径 。 如 果 
匹配 ， 就 利用 yield 语句 向 调用 者 返回 这 个 元 素 。 





在 yield 之 后 的 下 面 这 个 语句 才 是 使 得 程序 占用 极 少 内 存 的 ElementTree 的 核心 特性 : 





elem_stack[-2].remove(elem) 


这 个 语句 使 得 之 前 由 yield 产生 的 元 素 从 它 的 父 节 点 中 删除 掉 。 假设 已 经 没有 其 它 的 地 
方 引 用 这 个 元 素 了 ， 那 么 这 个 元 素 就 被 销毁 并 回收 内 存 。 





对 节点 的 欠 代 式 解 析 和 删除 的 最 终 效果 就 是 一 个 在 文档 上 高 效 的 增 量 式 清扫 过 程 。 文 档 
树 结 构 从 始 自 终 没 被 完整 的 创建 过 。 尽 管 如 此 ， 还 是 能 通过 上 述 简 单 的 方式 来 处 理 这 个 
XML 数据 。 














这 种 方案 的 主要 缺陷 就 是 它 的 运行 性 能 了 。 我 自己 测试 的 结果 是 ， 读 取 整 个 文档 到 内 存 
中 的 版 本 的 运行 速度 差不多 是 增 量 式 处 理 版 本 的 两 倍 快 。 但 是 它 却 使 用 了 超过 后 者 60 倍 
的 内 存 。 因此， 如 果 你 更 关心 内 存 使 用 量 的 话 ， 那 么 增 量 式 的 版 本 完胜 。 








6.5 将 字典 转换 为 XML 
问题 


你 想 使 用 一 个 Python 字典 存储 数据 ， 并 将 它 转 换 成 XML 格式 。 


解决 方案 


尽管 xml.etree.ElementTree 库 通常 用 来 做 解析 工作 ， 其 实 它 也 可 以 创建 XML 文档 。 例 
如 ， 考 虑 如 下 这 个 函数 : 


from xml.etree.ElementTree import Element 


def dict_to_xml(tag, d): 


Turn a simple dict of key/value pairs into XML 
elem = Element(tag) 
for key, val in d.items(): 
child = Element(key) 
child.text = str(val) 
elem.append(child) 
return elem 


下 面 是 一 个 使 用 例子 : 


>>> S = { 'name': 'GOOG', 'shares': 100, 'price':490.1 } 
>>> e = dict to xml('stock', s) 

>>> e 

<Element ‘stock’ at @x1004b64c8> 

>>> 


转换 结果 是 一 个 Element 实例 。 对 于 Il/O 操 作 ， 使 用 xml.etree.ElementTree 中 的 
tostring() 函数 很 容易 就 能 将 它 转换 成 一 个 字 节 字符 串 。 例 如 ; 


>>> from xml.etree.ElementTree import tostring 

>>> tostring(e) 
b'<stock><price>490.1</price><shares>100</shares><name>GOOG</name></stock>' 
>>> 


如 果 你 想 给 茶 个 元 素 添 加 属性 值 ， 可 以 使 用 set() 方法 : 





>>> e.set('_id','1234') 

>>> tostring(e) 

b'<stock _id="1234"><price>490.1</price><shares>100</shares><name>GOOG</name> 
</stock>' 

>>> 





如 果 你 还 想 保持 元 素 的 顺序 ， 可 以 考虑 构造 一 个 orderedpict 来 代替 一 个 普通 的 字典 。 请 
参考 1.7 小 市 。 


当 创 建 XML 的 时 候 ， 你 被 限制 只 能 构造 字符 串 类 型 的 值 。 


def 


问题 是 








dict_to_xml_str(tag, d): 
Turn a simple dict of key/value pairs into XML 


parts = ['<{}>'.format(tag) ] 

for key, val in d.items(): 
parts.append('<{@}>{1}</{0}>'.format (key, val) ) 

parts.append('</{}>'.format (tag) ) 

return ''.join(parts) 


UR RF oh AEH FY BE 2 Male BI E FR IL 


殊 字符 的 时 候 会 怎样 呢 ? 


>>> 


d = { 'name' : '<spam>' } 


>>> # String creation 


>>> 


dict to xml str('item',d) 


"<item><name><spam></name></item>' 


>>> # Proper XML creation 


>>> 
>>> 


e = dict_to_xml('item',d) 
tostring(e) 


b'<item><name>&lt; spam&gt;</name></item>' 


>>> 





TES BUREN AR BA FIF 和 "> BET 





例如 ， 当 字典 


&lt; 和 agt; 


的 值 中 包含 一 些 特 


下 面 仅 供 参考 ， 如 果 你 需要 手动 去 转换 这 些 字 符 ， 可 以 使 用 xml.sax.saxutils 中 的 
escape() 和 unescape() PAA. PON: 





>>> from xml.sax.saxutils import escape, unescape 


>>> 


escape('<spam>') 


"&lt;spam&gt;' 


>>> 


unescape(_) 


"<spam>' 


>>> 





除了 能 创建 正确 的 输出 外 ， 还 有 另外 一 个 原因 推荐 你 创建 Element 实例 而 不 是 字符 串 ， 
那 就 是 使 用 字符 串 组 合 构造 一 个 更 大 的 文档 并 不 是 那么 容易 。 而 Element 实例 可 以 不 用 
考虑 解析 XML 文本 的 情况 下 通过 多 种 方式 被 处 理 。 也 就 是 说 ， 你 可 以 在 一 个 高 级 数据 结 
构 上 完成 你 所 有 的 操作 ， 并 在 最 后 以 字符 串 的 形式 将 其 输出 。 




















6.6 解析 和 修改 XML 
问题 


你 想 读 取 一 个 XML 文档 ， 对 它 最 一 些 修改 ， 然 后 将 结果 写 回 XML 文档 。 





解决 方案 

















使 用 xml.etree.ElementTree 模块 可 以 很 容易 的 处 理 这 些 任务 。 第 一 步 是 以 通常 的 方式 来 
解析 这 个 文档 。 例 如 ， 假 设 你 有 一 个 名 为 pred.xml 的 文档 ， 类 似 下 面 这 样 : 





下 面 是 一 个 利用 ElementTree 来 读 取 这 个 文档 并 对 它 做 一 些 修改 的 例子 : 


>>> from xml.etree.ElementTree import parse, Element 
>>> doc = parse('pred.xml') 

>>> root = doc.getroot() 

>>> root 

<Element ‘stop’ at @x1@0770cbe> 


>>> # Remove a few elements 

>>> root.remove(root.find('sri’)) 

>>> root.remove(root.find('cr')) 

>>> # Insert a new element after <nm>...</nm> 
>>> root.getchildren().index(root.find('nm' )) 


>>> e = Element('spam' ) 
>>> e.text = ‘This is a test’ 
>>> root.insert(2, e) 


>>> # Write back to a file 
>>> doc.write('newpred.xml', xml_declaration=True) 

















处 理 结 果 是 一 个 像 下 面 这 样 新 的 XML 文件 : 





讨论 


修改 一 个 XML 文档 结构 是 很 容易 的 ， 但 是 你 必须 牢记 的 是 所 有 的 修改 都 是 针对 父 节点 元 
素 ， 将 它 作 为 一 个 列表 来 处 理 。 例 如 ， 如 果 你 删除 某 个 元 素 ， 通 过 调用 父 节 点 的 
remove() 方法 从 它 的 直接 父 节 点 中 删除 。 如 果 你 插入 或 增加 新 的 元 素 ， 你 同样 使 用 父 节 
点 元 素 的 insert() 和 append) 方法 。 还 能 对 元 素 使 用 索引 和 切片 操作 ， 比 如 


element[i] 或 element[i:j] 























WMR ris SET TCR FY EAST SS RAIN Element 类 。 我 们 在 6.5 小 节 已 经 
详细 讨论 过 了 。 


6.7 利用 命名 空间 解析 XML 文档 
问题 


你 想 解析 某 个 XML 文档 ， 文 档 中 使 用 了 XML 命名 空间 。 


解决 方案 
考虑 下 面 这 个 使 用 了 命名 空间 的 文档 : 


如 果 你 解析 这 个 文档 并 执行 普通 的 查询 ， 你 会 发 现 这 个 并 不 是 那么 容易 ， 因 为 所 有 步骤 都 
变 得 相当 的 繁琐 。 


>>> # Some queries that work 
>>> doc. findtext( ‘author’ ) 
"David Beazley' 
>>> doc. find('content' ) 
<Element ‘content' at 0x100776ec@> 
>>> # A query involving a namespace (doesn't work) 
>>> doc. find('content/htm1' ) 
>>> # Works if fully qualified 
>>> doc. find('content/{http://www.w3.org/1999/xhtml thtm1' ) 
<Element '{http://www.w3.org/1999/xhtml}html' at @x1007767e0> 
>>> # Doesn't work 
>>> doc. findtext('content/{http: //www.w3.org/1999/xhtml}html/head/title’ ) 
>>> # Fully qualified 
>>> doc. findtext('content/{http: //www.w3.org/1999/xhtml}htm1/' 
. '{http://www.w3.org/1999/xhtml }head/{http: //www.w3.org/1999/xhtml}title' ) 
"Hello World’ 
>>> 








=p 














你 可 以 通过 将 命名 空间 处 理 逻 辑 包 装 为 一 个 工具 类 来 简化 这 个 过 程 : 








adv 
Ht 





m 


class XMLNamespaces: 


"{'+uri+'}' 


return path.format_map(self.namespaces) 


def __init__(self, **kwargs): 
self.namespaces = {} 
for name, uri in kwargs.items(): 

self.register(name, uri) 

def register(self, name, uri): 
self.namespaces[name] = 

def __call__(self, path): 

通过 下 面 的 方式 使 用 这 个 类 
>>> ns = 


XMLNamespaces(html="'http://www.w3.org/1999/xhtml') 


>>> doc.find(ns('content/{html}html')) 


<Element '{http://www.w3.0rg/1999/xhtml}htm1' 


at 0x1007767e0> 


>>> doc.findtext(ns('content/{html}htm1/{html}head/{html}title' )) 


"Hello World' 


>>> 


讨论 


解析 含有 命名 空 


PRE TERE URIS 


很 不 扯 的 是 ， 在 基本 的 ElementTree 解析 中 没有 任何 途径 3 


x 间 的 XML 文档 会 比较 繁琐 。 上面 的 xmLNamespaces 仅仅 是 允许 你 使 用 缩 略 


如 果 你 使 用 iterparse() 


其 变 得 稍微 简洁 一 点 。 





获取 命名 空间 的 信息 。 但 是 ， 























Hi 





函数 的 话 就 可 以 获取 更 多 关于 命名 空间 处 理 范围 的 信息 。 例 如 : 


>>> from xml.etree.ElementTree import iterparse 


>>> for evt, elem in iterparse('ns2.xml', 


. print(evt, elem) 


end <Element 


start-ns ('', 


end <Element 
end <Element 
end <Element 
end <Element 
end <Element 
end-ns None 
end <Element 
end <Element 


"author 

“http://www. 
"{http://www. 
'{http://www. 
'{http://www. 
'{http://www. 
'{http://www. 


'content' 
'top' 


w3 


('end', 'start-ns', 'end-ns')): 


at 0x10110de10> 

.org/1999/xhtml') 
w3. 
w3. 
w3. 
w3. 
w3. 


org/1999/xhtml}title' at @x1011131b@> 
org/1999/xhtml}head' at @x1011130a8> 
org/1999/xhtm1}h1' at @x101113310> 

org/1999/xhtml}body' at @x101113260> 
org/1999/xhtml}html' at 0x10110df70> 


at @x10110de68> 
at @x10110dd6e> 


>>> elem # This is the topmost element 
at @x10110dd60e> 


<Element ‘top' 


>>> 


最 后 一 点 ， 如 果 你 要 处 理 的 XML 文本 除了 要 使 用 到 其 他 高 级 XML 特性 外 ， 还 要 使 用 到 命 
名 空间 ， 建议 你 最 好 是 使 用 lxml 函数 库 来 代替 ElementTree 。 例 如 ， lxnml 对 利用 DTD 
验证 文档 、 更 好 的 XPath 支 持 和 一 些 其 他 高 级 XML 特 性 等 都 提供 了 更 好 的 支持 。 这 一 小 节 
其 实 只 是 教 你 如 何 让 XML 解 析 稍 微 简单 一 点 。 





6.8 与 关系 型 数据 库 的 交互 
问题 


你 想 在 关系 型 数据 库 中 查询 、 增 加 或 删除 记录 。 


解决 方案 





Python 中 表示 多 行 数据 的 标准 方式 是 一 个 由 元 组 构成 的 序列 。 例 如 : 


stocks = [ 
('GOOG', 100, 490.1), 
(‘AAPL', 50, 545.75), 
('FB', 150, 7.45), 
('HPQ', 75, 33.2), 





依据 PEP249， 通 过 这 种 形式 提供 数据 ， 可 以 很 容易 的 使 用 Python 标准 数据 库 API 和 关系 
型 数据 库 进 行 交 互 。 所 有 数据 库 上 的 操作 都 通过 SQL 碍 询 语句 来 完成 。 每 一 行 输入 输出 数 
据 用 一 个 元 组 来 表示 。 





为 了 演示 说 明 ， 你 可 以 使 用 Python 标准 库 中 的 sqlite3 模块 。 如 果 你 使 用 的 是 一 个 不 同 
的 数据 库 ( 比 如 MySql、Postgresq| 或 者 ODBC)， 还 得 安装 相应 的 第 三 方 模块 来 提供 支持 。 
不 过 相应 的 编程 接口 几乎 都 是 一 样 的 ， 除 了 一 点 点 细微 差别 外 。 








第 一 步 是 连接 到 数据 库 。 通 常 你 要 执行 connect() 函数 ， 给 它 提 供 一 些 数据 库 名 、 主 
机 、 用 户 名 、 密 码 和 其 他 必要 的 一 些 参数 。 例 如 : 


>>> import sqlite3 
>>> db = sqlite3.connect('database.db') 
>>> 














为 了 处 理 数 据 ， 下 一 步 你 需要 创建 一 个 游标 。 一 旦 你 有 了 游标 ， 那 么 你 就 可 以 执行 SQL 碍 
询 语句 了 。 比 如 : 








>>> c = db.cursor() 

>>> c.execute('create table portfolio (symbol text, shares integer, price real)') 
<sqlite3.Cursor object at 0x10067a73@> 

>>> db.commit() 

>>> 


为 了 向 数据 库 表 中 插入 多 条 记录 ， 使 用 类 似 下 面 这 样 的 语句 : 


>>> c.executemany('insert into portfolio values (?,?,?)', stocks) 
<sqlite3.Cursor object at 0x10067a73@> 

>>> db.commit() 

>>> 


为 了 执行 某 个 查询 ， 使 用 像 下 面 这 样 的 语句 : 


>>> for row in db.execute('select * from portfolio'): 
print (row) 


('GOOG', 100, 490.1) 
(‘AAPL', 50, 545.75) 
('FB', 150, 7.45) 
(‘HPQ', 75, 33.2) 
>>> 


如 果 你 想 接受 用 户 输入 作为 参数 来 执行 查询 操作 ， 必 须 确保 你 使 用 下 面 这 样 的 占 位 符 ~? 
来 进行 引用 参数 : 


>>> min_price = 100 
>>> for row in db.execute('select * from portfolio where price >= ?', 
(min_price,)): 
print (row) 


('GOOG', 100, 490.1) 
('AAPL', 50, 545.75) 
>>> 


讨论 


在 比较 低 的 级 别 上 和 数据 库 交 互 是 非常 简单 的 。 你 只 需 提 供 SQL 语 句 并 调用 相应 的 模块 就 
可 以 更 新 或 提取 数据 了 。 虽说 如 此 ， 还 是 有 一 些 比较 坏 手 的 细节 问题 需要 你 逐个 列 出 去 
解决 。 


一 个 难点 是 数据 库 中 的 数据 和 Python 类 型 直接 的 映射 。 对 于 日 期 类 型 ， 通 常 可 以 使 用 
datetime 模块 中 的 datetime 实例 ， 或 者 可 能 是 tinme 模块 中 的 系统 时 间 惟 。 对 于 数字 
类 型 ， 特 别 是 使 用 到 小 数 的 金融 数据 ， 可 以 用 decimal 模块 中 的 Decimal 实例 来 表示 。 
不 幸 的 是 ， 对 于 不 同 的 数据 库 而 言 具 体 映射 规 则 是 不 一 样 的 ， 你 必须 参考 相应 的 文档 。 











另外 一 个 更 加 复杂 的 问题 就 是 SQL 语句 字符 串 的 构造 。 你 千 万 不 要 使 用 Python 字符 串 格 
式 化 操作 符 ( 如 %) 或 者 .format() 方法 来 创建 这 样 的 字符 串 。 如 果 传递 给 这 些 格 式 化 操作 
符 的 值 来 自 于 用 户 的 输入 ， 那 么 你 的 程序 就 很 有 可 能 遭受 SQL 注 入 攻击 (参考 
http://xkcd.com/327)。 查询 语句 中 的 通配符 ”指示 后 台数 据 库 使 用 它 自己 的 字符 串 蔡 
换 机 制 ， 这 样 更 加 的 安全 。 




















不 地 的 是 ， 不 同 的 数据 库 后 全 对 于 通配符 的 使 用 是 不 一 样 的 。 大 部 分 模块 使 用 ? 或 xs 

， 还 有 其 他 一 些 使 用 了 不 同 的 符号 ， 比 如 :0 或 :1 来 指示 参数 。 同样 的 ， 你 还 是 得 去 参考 你 
使 用 的 数据 库 模 块 相 应 的 文档 。 一 个 数据 库 模 块 的 paramstyle 属性 包含 了 参数 引用 风格 
的 信息 。 




















对 于 简单 的 数据 库 数据 的 读 写 问题 ， 使 用 数据 库 API 通 常 非常 简单 。 如 果 你 要 处 理 更 加 复 
杂 的 问题 ， 建 议 你 使 用 更 加 高 级 的 接口 ， 比 如 一 个 对 象 关 系 映 射 ORM 所 提供 的 接口 。 类 
似 seralchemy 这 样 的 库 允 许 你 使 用 Python 类 来 表示 一 个 数据 库 表 ， 并 且 能 在 隐藏 底层 
SQL 的 情况 下 实现 各 种 数据 库 的 操作 。 


6.9 编码 和 解码 十 六 进 制 数 


问题 





你 想 将 一 个 十 六 进 制 字符 串 解码 成 一 个 字 节 字符 串 或 者 将 一 个 字 节 字符 串 编码 成 一 个 十 六 








如 果 你 只 是 简单 的 解码 或 编码 一 个 十 六 进 制 的 原始 字符 串 ， 可 以 使 用 ”binascii 模块 。 


>>> # Initial byte string 
>>> s = b'hello' 

>>> # Encode as hex 

>>> import binascii 

>>> h = binascii.b2a_hex(s) 
>>> h 

b'68656c6c6F' 

>>> # Decode back to bytes 
>>> binascii.a2b_hex(h) 
b'hello' 

>>> 


类 似 的 功能 同样 可 以 在 base64 模块 中 找到 。 例 如 : 


>>> import base64 

>>> h = base64.b16encode(s) 
>>> h 

b'68656C6C6F' 

>>> base64.b16decode(h) 
b'hello' 

>>> 


讨论 


大 部 分 情况 下 ， 通 过 使 用 上 述 的 函数 来 转换 十 六 进 和 




















上 是 很 简单 的 。 上 面 两 种 技术 的 主要 


不 同 在 于 大 小 写 的 处 理 。 PRL base64.bi6decode() 和 base64.b16encode() 只 能 操作 大 写 

















形式 的 十 六 进 制 字 母 ， 而 binascii 模块 中 的 函数 大 小 写 都 能 处 理 。 



































还 有 一 点 需要 注意 的 是 编码 函数 所 产生 的 输出 总 是 一 个 字 节 字符 串 。 如果 想 强 制 以 
Unicode 形 式 输出 ， 你 需要 增加 一 个 额外 的 界面 步骤 。 例 如 : 


>>> h = base64.b16encode(s) 
>>> print(h) 

b'68656C6C6F' 

>>> print(h.decode('ascii')) 
68656C6C6F 

>>> 











在 解码 十 六 进 制 数 时 ， 函 数 bi6decode() 和 a2b_hex() 可 以 接受 字 节 或 unicode 字 符 串 。 
但 是 ，unicode 字 符 串 必须 仅仅 只 包含 ASCIH 编 码 的 十 六 进 制 数 。 





6.10 编码 解码 Base64 数 据 


问题 





你 需要 使 用 Base64 格 式 解码 或 编码 二 进 制 数据 。 


base64 模块 中 有 了 两 个 函数 b64encode() and b64decode() 可 以 帮 你 解决 这 个 问题 。 例如 ; 


>>> # Some byte data 
>>> s = b'hello' 
>>> import base64 


>>> # Encode as Base64 

>>> a = base64.b64encode(s) 
>>> a 

b' aGVsbG8=' 


>>> # Decode from Base64 
>>> base64.b64decode(a) 
b'hello' 

>>> 


讨论 




















Base64 编 码 仅仅 用 于 面 问 字 节 的 数据 比如 字 节 字符 串 和 字 贡 数组 。 此 外 ， 编 码 处 理 的 输 
出 结果 总 是 一 个 字 节 字符 串 。 如 果 你 想 混合 使 用 Base64 编 码 的 数据 和 Unicode 文 本 ， 你 必 
须 添加 一 个 额外 的 解码 步骤 。 例 如 : 











>>> a = base64.b64encode(s).decode('ascii') 
>>> a 

"aGVsbG8=' 

>>> 


当 解 码 Base64 的 时 候 ， 字 节 字 符 串 和 Unicode 文 本 都 可 以 作为 参数 。 但 是 ，Unicode 字 符 
串 只 能 包含 ASCI| 字 符 。 


6.11 读 写 二 进 制 数组 数据 


你 想 读 写 一 个 二 进 制 数组 的 结构 化 数据 到 Python 元 组 中 。 


























可 以 使 用 struct 模块 处 理 二 进 制 数据 。 下 面 是 一 段 示 例 代码 将 一 个 Python 元 组 列表 写 
入 一 个 二 进 制 文件 ， 并 使 用 struct 将 每 个 元 组 编码 为 一 个 结构 体 。 








from struct import Struct 
def write_records(records, format, f): 


Write a sequence of tuples to a binary file of structures. 


record_struct = Struct(format) 
for r in records: 
f.write(record_struct.pack(*r)) 


# Example 
if name == '__main_' 
records = [ (1, 2.3, 4.5), 
(6, 7.8, 9.0), 
(12, 13.4, 56.7) ] 
with open('data.b', 'wb') as f: 
write_records(records, ‘<idd', f) 








有 很 多 种 方法 来 读 取 这 个 文件 并 返回 一 个 元 组 列表 。 首 先 ， 如 果 你 打算 以 块 的 形式 增 量 
读 取 文件 ， 你 可 以 这 样 做 : 





from struct import Struct 


def read_records(format, f): 
record_struct = Struct(format) 
chunks = iter(lambda: f.read(record_struct.size), b'') 
return (record_struct.unpack(chunk) for chunk in chunks) 


# Example 
if __name__ == '_ main_' 
with open('data.b','rb') as f: 
for rec in read_records('<idd', f): 
# Process rec 


如 果 你 想 将 整个 文件 一 次 性 读 取 到 一 个 字 节 字符 串 中 ， 然 后 在 分 片 解析 。 那 么 你 可 以 这 样 
做 : 


from struct import Struct 


def unpack_records(format, data): 
record_struct = Struct(format) 
return (record_struct.unpack_from(data, offset) 
for offset in range(@, len(data), record_struct.size) ) 


# Example 
if __name__ == '_ main_' 
with open('data.b', 'rb') as f: 
data = f.read() 
for rec in unpack_records('<idd', data): 
# Process rec 


两 种 情况 下 的 结果 都 是 一 个 可 返回 用 来 创建 该 文件 的 原始 元 组 的 可 迭代 对 象 。 


讨论 





对 于 需要 编码 和 解码 二 进 制 数据 的 程序 而 言 ， 通 常会 使 用 struct 模块 。 为 了 声明 一 个 新 
的 结构 体 ， 只 需要 像 这 样 创建 一 个 struct 实例 即 可 : 


# Little endian 32-bit integer, two double precision floats 
record_struct = Struct('<idd') 





结构 体 通常 会 使 用 一 些 结构 码 值 i, d, f [参考 Python 文档 ]。 这 些 代 码 分 别 代 表 某 个 特定 
的 二 进 制 数据 类 型 如 32 位 整数 ，64 位 浮 点 数 ，32 位 浮 点 数 等 。 第 一 个 字符 < 指定 了 字 
节 顺 序 。 在 这 个 例子 中 ， 它 表示 "低位 在 前 "。 更改 这 个 字符 为 ”表示 高 位 在 前 ， 或 者 是 
! 表示 网 络 字 节 顺序 。 

















产生 的 struct 实例 有 很 多 属性 和 方法 用 来 操作 相应 类 型 的 结构 。 size 属性 包含 了 结构 
的 字 节 数 ， 这 在 MO 操作 时 非常 有 用 。 pack() 和 unpack 方法 被 用 来 打包 和 解 包 数据 。 
比如 : 


>>> from struct import Struct 

>>> record_struct = Struct('<idd') 

>>> record struct.size 

20 

>>> record_struct.pack(1, 2.0, 3.0) 
b'\x@1\x@0\x00\x00\x00\x00\x80\x00\x80\x00\x80@\x00\x80\x00\x80\x80\x00\x88@' 
>>> record_struct.unpack(_) 

(1, 2.0, 3.0) 

>>> 





有 时 候 你 还 会 看 到 pack) 和 unpack 操作 以 模块 级 别 函 数 被 调用 ， 类 似 下 面 这 样 : 


>>> import struct 

>>> struct.pack('<idd', 1, 2.0, 3.0) 
b'\x@1\x@0\x00\x00\x00\x00\x80\x00\x80\x00\x80@\x00\x80\x00\x00\x80\x00\x88@' 
>>> struct.unpack('<idd', _) 

(1, 2.0, 3.0) 

>>> 





这 样 可 以 工作 ， 但 是 感觉 没有 实例 方法 那么 优雅 ， 特 别 是 在 你 代码 中 同样 的 结构 出 现在 多 
个 地 方 的 时 候 。 通 过 创建 一 个 struct 实例 ， 格 式 代 码 只 会 指定 一 次 并 且 所 有 的 操作 被 集 
中 处 理 。 这 样 一 来 代码 维护 就 变 得 更 加 简单 了 (因为 你 只 需要 改变 一 处 代码 即 可 )。 
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读 取 二 进 制 结构 的 代码 要 用 到 一 些 非常 有 趣 而 优美 的 编程 技巧 。 在 函数 read_records 
中 ， iter() 被 用 来 创建 一 个 返回 固定 大 小 数据 块 的 迭代 器 ， 参 考 5.8 小 节 。 这 个 迭代 器 会 
不 断 的 调用 一 个 用 户 提供 的 可 调用 对 象 (比如 lambda: f.read(record_struct.size) )， 直到 
它 返 回 一 个 特殊 的 值 (如 b”)， 这 时 候 迭 代 停 止 。 例 如 : 





>>> f = open('data.b', 'rb') 
>>> chunks = iter(lambda: f.read(20), b'') 
>>> chunks 
<callable_iterator object at 0x10069e6dq> 
>>> for chk in chunks: 

. print(chk) 


b'\x01\x@0\x00\ xO0FFFFFF\xO2@\x00\x00\x80\x00\x00\x00\x12@' 
b'\x06\x@0\x00\x00333333\x1F@\x00\x00\x80\x00\x80\xe0"@' 
b'\x@c\x@0\x00\x00\xcd\xcc\xcc\xcc\xcc\xcc*@\x9a\x99\x99\x99\x99YL@' 
>>> 


如 你 所 见 ， 创 建 一 个 可 迭代 对 象 的 一 个 原因 是 它 能 允许 使 用 一 个 生成 器 推导 来 创建 记录 。 
如 果 你 不 使 用 这 种 技术 ， 那 么 代码 可 能 会 像 下 面 这 样 : 


def read_records(format, f): 
record_struct = Struct(format) 


while True: 
chk = f.read(record_struct.size) 
if chk == 
break 
yield record_struct.unpack(chk) 


在 函数 unpack_records() 中 使 用 了 另外 一 种 方法 unpack_from() 。 unpack from() 对 于 从 
一 个 大 型 二 进 制 数组 中 提取 二 进 制 数据 非常 有 用 ， 因 为 它 不 会 产生 任何 的 临时 对 象 或 者 
进行 内 存 复制 操作 。 你 只 需要 给 它 一 个 字 节 字符 串 (或 数组 ) 和 一 个 字 节 偏 移 量 ， 它 会 从 那 
个 位 置 开 始 直接 解 包 数据 。 





























如 果 你 使 用 unpack() RIRE unpack_from() ， 你 需要 修改 代码 来 构造 大 量 的 小 的 切片 以 
及 进行 偏 移 量 的 计算 。 比 如 : 


def unpack_records(format, data): 
record_struct = Struct(format) 
return (record_struct.unpack(data[loffset:offset + record_struct.size]) 
for offset in range(@, len(data), record _struct.size) ) 











这 种 方案 除了 代码 看 上 去 很 复杂 外 ， 还 得 做 很 多 额外 的 工作 ， 因 为 它 执 行 了 大 量 的 偏 移 量 
计算 ， 复 制 数据 以 及 构造 小 的 切片 对 象 。 如 果 你 准备 从 读 取 到 的 一 个 大 型 字 节 字符 串 中 
解 包 大 量 的 结构 体 的 话 ， unpack_from() 会 表现 的 更 出 色 。 








在 解 包 的 时 候 ， collections 模块 中 的 命名 元 组 对 象 或 许 是 你 想 要 用 到 的 。 它 可 以 让 你 给 
返回 元 组 设置 属性 名 称 。 例 如 : 


from collections import namedtuple 
Record = namedtuple('Record', ['kind','x','y']) 


with open('data.p', 'rb') as f: 
records = (Record(*r) for r in read_records('<idd', f)) 


for r in records: 
print(r.kind, r.x, r.y) 

















如 果 你 的 程序 需要 处 理 大 量 的 二 进 制 数据 ， 你 最 好 使 用 numpy 模块 。 例 如 ， 你 可 以 将 一 
个 二 进 制 数据 读 取 到 一 个 结构 化 数组 中 而 不 是 一 个 元 组 列表 中 。 就 像 下 面 这样 : 

















>>> import numpy as np 

>>> f = open('data.b', 'rb') 

>>> records = np.fromfile(f, dtype='<i,<d,<d') 

>>> records 

array([(1, 2.3, 4.5), (6, 7.8, 9.0), (12, 13.4, 56.7)], 
dtype=[('f@', ‘'<i4'), ('f1', '<f8'), ('f2', '<#8')]) 
>>> records[@] 

(1, 2.3, 4.5) 

>>> records[1] 

(6, 7.8, 9.0) 

>>> 


最 后 提 一 点 ， 如 果 你 需要 从 已 知 的 文件 格式 (如 图 片 格式 ， 图 形 文件 ，HDF5 等 ) 中 读 取 二 
进 制 数据 时 ， 先 检查 看 看 Python 是 不 是 已 经 提供 了 现存 的 模块 。 因 为 不 到 万 不 得 已 没有 
必要 去 重复 造 轮子 。 
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问题 





你 需要 读 取 包 含 嵌 套 或 者 可 变 长 记录 集合 的 复杂 二 进 制 格 式 的 数据 。 这 些 数据 可 能 包含 图 
片 、 视 频 、 电 子 地 图 文件 等 。 
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struct 模块 可 被 用 来 编码 /解码 几乎 所 有 类 型 的 二 进 制 的 数据 结构 。 为 了 解释 清楚 这 种 数 
据 ， 假 设 你 用 下 面 的 Python 数 据 结构 来 表示 一 个 组 成 一 系列 多 边 形 的 点 的 集合 : 





现在 假设 这 个 数据 被 编码 到 一 个 以 下 列 头 部 开始 的 二 进 制 文件 中 去 了 : 





+------ +-------- +------------------------------------ + 
|Byte | Type | Description | 
SS ae aa a 
lo | int | File code (0x1234, little endian) | 
+------ +-------- +------------------------------------ 十 
| 4 | double | Minimum x (little endian) | 
+------ +-------- +------------------------------------ 十 
|12 | double | Minimum y (little endian) | 
+------ +-------- +------------------------------------ 十 
| 26 | double | Maximum x (little endian) | 
+------ +-------- +------------------------------------ 十 
| 28 | double | Maximum y (little endian) | 
+------ +-------- +------------------------------------ 十 
| 36 | int | Number of polygons (little endian) | 
+------ +-------- +------------------------------------ 十 


AIR ibe AINSI, SiS SUG T : 


+------ +-------- +------------------------------------------- 十 
|Byte | Type | Description | 
+======+========+===========================================+ 
lə | int | Record length including length (N bytes) | 
+------ +-------- +------------------------------------------- 十 
|4-N | Points | Pairs of (X,Y) coords as doubles | 
+------ +-------- +------------------------------------------- 十 


为 了 写 这 样 的 文件 ， 你 可 以 使 用 如 下 的 Python 代码 : 


import struct 
import itertools 


def write_polys(filename, polys): 
# Determine bounding box 
flattened = list(itertools.chain(*polys) ) 
min_x = min(x for x, y in flattened) 
max_x = max(x for x, y in flattened) 
min_y = min(y for x, y in flattened) 
max_y = max(y for x, y in flattened) 
with open(filename, ‘wb') as f: 
f.write(struct.pack('<iddddi', 0x1234, 
min_x, min_y, 
max_x, max_y, 
len(polys))) 
for poly in polys: 
size = len(poly) * struct.calcsize('<dd') 
f.write(struct.pack('<i', size + 4)) 
for pt in poly: 
f.write(struct.pack('<dd', *pt)) 


将 数据 读 取 回来 的 时 候 ， 可 以 利用 函数 struct.unpack() ， 代 码 很 相似 ， 基 本 就 是 上 面 写 
操作 的 逆序 。 如 下 : 


def read_polys(filename): 
with open(filename, 'rb') as f: 
# Read the header 
header = f.read(40) 
file_code, min_x, min_y, max_x, max_y, num_polys = \ 
struct.unpack('<iddddi', header) 
polys = [] 
for n in range(num_polys): 
pbytes, = struct.unpack('<i', f.read(4)) 
poly = [] 
for m in range(pbytes // 16): 
pt = struct.unpack('<dd', f.read(16)) 
poly.append(pt) 
polys.append(poly) 
return polys 





尽管 这 个 代码 可 以 工作 ， 但 是 里 面 混 杂 了 很 多 读 取 、 解 包 数 据 结 构 和 其 他 细节 的 代码 。 如 


果 用 这 样 的 代码 来 处 理 真实 的 数据 文件 ， 那 未 免 也 太 繁杂 了 点 。 因 此 很 显然 应 该 有 男 一 
种 解决 方法 可 以 简化 这 些 步 又， 让 程序 员 只 关注 自 最 重要 的 事情 。 
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在 本 小 节 接 下 来 的 部 分 ， 我 会 逐步 演示 一 个 更 加 优秀 的 解析 字 节 数据 的 方案 。 目标 是 可 
以 给 程序 员 提 供 一 个 高 级 的 文件 格式 化 方法 ， 并 简化 读 取 和 解 包 数 据 的 细节 。 但 是 我 要 先 
提醒 习 啊 你 ， 本 小 节 接 下 来 的 部 分 代码 应 该 是 整 本 书 中 最 复杂 最 高 级 的 例子 ， 使 用 了 大 
量 的 面向 对 象 编 程 和 元 编程 技术 。 一 定 要 仔细 的 阅读 我 们 的 讨论 部 分 ， 另 外 也 要 参考 下 
其 他 章节 内 容 。 











首先 ， 当 读 取 字 节 数据 的 时 候 ， 通 常 在 文件 开始 部 分 会 包含 文件 头 和 其 他 的 数据 结构 。 
尽管 struct 模 块 可 以 解 包 这 些 数 据 到 一 个 元 组 中 去 ， 另 外 一 种 表示 这 种 信息 的 方式 就 是 使 
用 一 个 类 。 就 像 下 面 这 样 : 











import struct 
class StructField: 
Descriptor representing a simple structure field 


def __init__(self, format, offset): 
self.format = format 
self.offset = offset 
def __get__(self, instance, cls): 
if instance is None: 
return self 
else: 
r = struct.unpack_from(self.format, instance. buffer, self.offset) 
return r[@] if len(r) == 1 else r 


class Structure: 
def __init__(self, bytedata): 
self. buffer = memoryview(bytedata) 


这 里 我 们 使 用 了 一 个 描述 器 来 表示 每 个 结构 字段 ， 每 个 描述 器 包含 一 个 结构 兼容 格式 的 代 
码 以 及 一 个 字 节 偏 移 量 ， 存储 在 内 部 的 内 存 缓冲 中 。 在 [Bet 方法 
H, | struct unpack fron) | 函数 被 用 来 从 缓冲 中 解 包 一 个 值 ， 省 去 了 额外 的 分 片 或 复制 


作 步 又 。 

















Structure 类 就 是 一 个 基础 类 ， 接 受 字 节 数 据 并 存储 在 内 部 的 内 存 缓冲 中 ， 并 被 
structField 描述 器 使 用 。 这 里 使 用 了 memoryview() ， 我 们 会 在 后 面 详细 讲解 它 是 用 来 
干 嘛 的 。 


使 用 这 个 代码 ， 你 现在 就 能 定义 一 个 高 层次 的 结构 对 象 来 表示 上 面 表格 信息 所 期 望 的 文件 
格式 。 例 如 : 


class PolyHeader(Structure): 
file code = StructField('<i', @) 
min x = StructField('<d', 4) 
StructField('<d', 12) 
max_x StructField('<d', 20) 
max_y = StructField('<d', 28) 
num_polys = StructField('<i', 36) 


min_y 





下 面 的 例子 利用 这 个 类 来 读 取 之 前 我 们 写 入 的 多 边 形 数据 的 头 部 数据 : 


>>> f = open('polys.bin', 'rb') 
>>> phead = PolyHeader(f.read(40)) 
>>> phead.file_code == 0x1234 
True 

>>> phead.min_x 

0.5 

>>> phead.min_y 

0.5 

>>> phead.max_x 

7.0 

>>> phead.max_y 

9.2 

>>> phead.num_polys 

3 

>>> 





这 个 很 有 趣 ， 不 过 这 种 方式 还 是 有 一 些 烦人 的 地 方 。 首 先 ， 尽 管 你 获得 了 一 个 类 接口 的 便 
利 ， 但 是 这 个 代码 还 是 有 点 腑 肿 ， 还 需要 使 用 者 指定 很 多 底层 的 细节 (比如 重复 使 用 
StructField ， 指 定 偏 移 量 等 )。 男 外 ， 返 回 的 结果 类 同样 确实 一 些 便利 的 方法 来 计算 结 
构 的 总 数 。 

















任何 时 候 只 要 你 遇 到 了 像 这 样 元 余 的 类 定义 ， 你 应 该 考虑 下 使 用 类 装饰 器 或 元 类 。 元 类 
有 一 个 特性 就 是 它 能 够 被 用 来 填充 许多 低层 的 实现 细节 ， 从 而 释放 使 用 者 的 负担 。 下面 
我 来 举 个 例子 ， 使 用 元 类 稍微 改造 下 我 们 的 structure 类 : 




















class StructureMeta(type): 
Metaclass that automatically creates StructField descriptors 


def __init__(self, clsname, bases, clsdict): 
fields = getattr(self, ‘_fields_', []) 
byte_order = '' 
offset = 6 
for format, fieldname in fields: 
if format.startswith(('<','>','!','@')): 
byte_order = format[®@] 
format = format[1: ] 
format = byte_order + format 
setattr(self, fieldname, StructField(format, offset) ) 
offset += struct.calcsize(format) 
setattr(self, ‘struct_size', offset) 


class Structure(metaclass=StructureMeta) : 
def __init__(self, bytedata): 
self._buffer = bytedata 


@classmethod 
def from_file(cls, f): 
return cls(f.read(cls.struct_size) ) 


使 用 新 的 structure 类 ， 你 可 以 像 下 面 这 样 定义 一 个 结构 : 


class PolyHeader(Structure): 
_fields = [ 
('<i', 'file_code'), 
("d", "min x); 


('d', ‘min_y'), 
Cd 5. “max 3c"), 
('d', ‘max_y'), 
('i', '‘num_polys') 


正如 你 所 见 ， 这 样 写 就 简单 多 了 。 我 们 添加 的 类 方法 from_file() 让 我 们 在 不 需要 知道 任 
何 数 据 的 大 小 和 结构 的 情况 下 惑 能 轻松 的 从 文件 中 读 取 数据 。 比 如 : 





>>> f = open('polys.bin', 'rb') 
>>> phead = PolyHeader.from_file(Ff) 
>>> phead.file_code == @x1234 
True 

>>> phead.min_x 

0.5 

>>> phead.min_y 

0.5 

>>> phead.max_x 

7.8 

>>> phead.max_y 

9.2 

>>> phead.num_polys 
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结构 ， 下 面 是 对 前 面 元 类 的 一 个 小 的 改进 ， 提 供 了 一 个 新 的 辅助 描述 器 来 达到 想 要 的 效 
果 : 




















class NestedStruct: 
Descriptor representing a nested structure 


def __init__(self, name, struct_type, offset): 
self.name = name 
self.struct_type = struct_type 
self.offset = offset 


def __get__(self, instance, cls): 

if instance is None: 
return self 

else: 
data = instance._buffer[self.offset: 

self.offset+self.struct_type.struct_size] 

result = self.struct_type(data) 
# Save resulting structure back on instance to avoid 
# further recomputation of this step 
setattr(instance, self.name, result) 
return result 


class StructureMeta(type): 
Metaclass that automatically creates StructField descriptors 


def __init__(self, clsname, bases, clsdict): 
fields = getattr(self, ‘_fields_', []) 
byte_order = '' 
offset = 6 
for format, fieldname in fields: 
if isinstance(format, StructureMeta): 
setattr(self, fieldname, 
NestedStruct(fieldname, format, offset) ) 
offset += format.struct_size 
else: 
if format.startswith(('<','>','!','@')): 
byte_order = format[@] 
format = format[1:] 
format = byte_order + format 
setattr(self, fieldname, StructField(format, offset) ) 
offset += struct.calcsize(format) 
setattr(self, ‘struct_size', offset) 


在 这 段 代 码 中 ， Nestedstruct 描述 器 被 用 来 登 加 另外 一 个 定义 在 某 个 内 存 区 域 上 的 结 
构 。 它 通 过 将 原始 内 存 缓冲 进行 切片 操作 后 实例 化 给 定 的 结构 类 型 。 由 于 底层 的 内 存 绥 
冲 区 是 通过 一 个 内 存 视图 初始 化 的 ， 所 以 这 种 切片 操作 不 会 引发 任何 的 额外 的 内 存 复 
制 。 相 反 ， 它 仅仅 就 是 之 前 的 内 存 的 一 个 县 加 而 已 。 男 外 ， 为 了 防止 重复 实例 化 ， 通 过 
使 用 和 8.10 小 节 同 样 的 技术 ， 描 述 器 保存 了 该 实例 中 的 内 部 结构 对 象 。 








使 用 这 个 新 的 修正 版 ， 你 就 可 以 像 下 面 这 样 编写 : 


class Point(Structure): 


_fields = [ 
(mdau; 要 
('d', 'y') 


class PolyHeader(Structure): 
_fields_= [ 
('<i', 'file_code'), 
(Point, 'min'), # nested struct 
(Point, 'max'), # nested struct 
('i', ‘num_polys') 


令 人 惊讶 的 是 ， 它 也 能 按照 预期 的 正常 工作 ， 我 们 实际 操作 下 : 


>>> f = open('polys.bin', 'rb') 

>>> phead = PolyHeader.from_file(f) 
>>> phead.file_code == 0x1234 

True 

>>> phead.min # Nested structure 
<__main__.Point object at 0x1006a48d@> 
>>> phead.min.x 

0.5 

>>> phead.min.y 

0.5 

>>> phead.max.x 

7.8 

>>> phead.max.y 

9.2 

>>> phead.num_polys 

3 

>>> 




















到 目前 为 止 ， 一 个 处 理 定 长 记录 的 框架 已 经 写 好 了 。 但 是 如 果 组 件 记 录 是 变 长 的 呢 ? 比 
如 ， 多 边 形 文件 包含 变 长 的 部 分 。 

















一 种 方案 是 写 一 个 类 来 表示 字 节 数据 ， 同 时 写 一 个 工具 函数 来 通过 多 少 方式 解析 内 容 。 跟 
6.11 小 市 的 代码 很 类 似 : 


class SizedRecord: 
def __init__(self, bytedata): 
self. buffer = memoryview(bytedata) 


@classmethod 

def from_file(cls, f, size fmt, includes _size=True): 
sz_nbytes = struct.calcsize(size_fmt) 
sz_bytes = f.read(sz_nbytes) 
sz, = struct.unpack(size_ fmt, sz_bytes) 
buf = f.read(sz - includes_size * sz_nbytes) 
return cls(buf) 


def iter_as(self, code): 
if isinstance(code, str): 
s = struct.Struct(code) 
for off in range(®, len(self._buffer), s.size): 
yield s.unpack_from(self. buffer, off) 
elif isinstance(code, StructureMeta): 
size = code.struct_size 
for off in range(@, len(self._buffer), size): 
data = self. _buffer[off:off+size] 
yield code(data) 














类 方法 sizedRecord.from_file() 是 一 个 工具 ， 用 来 从 一 个 文件 中 读 取 带 大 小 前 级 的 数据 
块 ， 这 也 是 很 多 文件 格式 常用 的 方式 。 作 为 输入 ， 它 接受 一 个 包含 大 小 编码 的 结构 格式 
编码 ， 并 且 也 是 自己 形式 。 可 选 的 includes size 参数 指定 了 字 节 数 是 否 包 含 头 部 大 小 。 
下 面 是 一 个 例子 教 你 怎样 使 用 从 多 边 形 文件 中 读 取 单独 的 多 边 形 数据 : 














>>> f = open('polys.bin', 'rb') 

>>> phead = PolyHeader.from_file(f) 

>>> phead.num_polys 

3 

>>> polydata = [ SizedRecord.from_file(f, '<i') 
aces for n in range(phead.num_polys) ] 
>>> polydata 
[<__main__.SizedRecord object at 0x1006a4d50>, 
<__main__.SizedRecord object at 0x10@6a4f5@>, 
<__main__.SizedRecord object at 9x10070da9@>] 
>>> 














可 以 看 出 ， SizedRecord 实例 的 内 容 还 没有 被 解析 出 来 。 可 以 使 用 iter_as() 方法 来 达到 
目的 ， 这 个 方法 接受 一 个 结构 格式 化 编码 或 者 是 structure 类 作为 输入 。 这 样子 可 以 很 
灵活 的 去 解析 数据 ， 例 如 : 











>>> for n, poly in enumerate(polydata): 
print('Polygon', n) 
for p in poly.iter_as('<dd'): 

print(p) 

Polygon @ 

(1.0, 2.5) 

(3.5, 4.0) 

(2.5, 1.5) 

Polygon 1 

(7.0, 1.2) 

(5.1, 3.0) 

(0.5, 7.5) 

(0.8, 9.0) 

Polygon 2 

(3.4, 6.3) 

(1.2, 0.5) 

(4.6, 9.2) 

>>> 


>>> for n, poly in enumerate(polydata): 
print('Polygon', n) 
for p in poly.iter_as(Point): 

print(p.x, p.y) 

Polygon @ 

1.0 2.5 

3.5 4.0 

235455 

Polygon 1 

7.0 1:2 

5.1 3.0 

O5 Z9 

0.8 9.0 

Polygon 2 

3.4 6.3 

1.2 0.5 

4.6 9.2 

>>> 


将 所 有 这 些 结合 起 来 ， 下 面 是 一 个 read_polys() 函数 的 另外 一 个 修正 版 


class Point(Structure): 


_fields = [ 
('<d', 'x'), 
('d', 'y') 


] 


class PolyHeader(Structure): 
_fields = [ 
('<i', 'file_code'), 
(Point, 'min'), 
(Point, 'max'), 
('i', ‘num_polys') 


] 


def read_polys(filename): 
polys = [] 
with open(filename, 'rb') as f: 
phead = PolyHeader.from_file(f) 
for n in range(phead.num_polys): 
rec = SizedRecord.from_file(f, '<i') 
poly = [ (p.x, p.y) for p in rec.iter_as(Point) ] 
polys.append(poly) 
return polys 


讨论 


这 一 节 疝 你 展示 了 许多 高 级 的 编程 技术 ， 包 括 描 述 器 ， 延 迟 计 算 ， 元 类 ， 类 变量 和 内 存 视 
图 。 然 而 ， 它 们 都 为 了 同一 个 特定 的 目标 服务 。 





上 面 的 实现 的 一 个 主要 特征 是 它 是 基于 懒 解 包 的 思想 。 当 一 个 structure 实例 被 创建 时 ， 

init O 仪 仅 只 是 创建 一 个 字 节 数据 的 内 存 视图 ， 没 有 做 其 他 任何 事 。 特 别 的 ， 这 时 
候 并 没有 任何 的 解 包 或 者 其 他 与 结构 相关 的 操作 发 生 。 这样 做 的 一 个 动机 是 你 可 能 仅仅 

只 对 一 个 字 节 记录 的 某 一 小 部 分 感 兴趣 。 我 们 只 需要 解 包 你 需要 访问 的 部 分 ， 而 不 是 整个 
SAF 





为 了 实现 懒 解 包 和 打包 ， 需 要 使 用 structrield 描述 器 类 。 用 户 在 fielas. 中 列 出 来 的 
每 个 属性 都 会 被 转化 成 一 个 structField 描述 器 ， 它 将 相关 结构 格式 码 和 偏 移 值 保 存 到 
存储 缓存 中 。 元 类 structuremeta 在 多 个 结构 类 被 定义 时 自动 创建 了 这 些 描 述 器 。 我 们 使 
用 元 类 的 一 个 主要 原因 是 它 使 得 用 户 非常 方便 的 通过 一 个 高 层 描述 就 能 指定 结构 格式 ， 而 
无 需 考 虑 低层 的 细节 问题 。 























Structuremeta 的 一 个 很 微妙 的 地 方 就 是 它 会 固定 字 节 数据 顺序 。 也 就 是 说 ， 如 果 任 意 的 
属性 指定 了 一 个 字 节 顺序 (< 表示 低位 优先 或 者 > 表示 高 位 优先 )， 那 后 面 所 有 字段 的 顺序 
都 以 这 个 顺序 为 准 。 这 么 做 可 以 帮助 避免 额外 输入 ， 但 是 在 定义 的 中 间 我 们 仍然 可 能 切换 
顺序 的 。 比如 ， 你 可 能 有 一 些 比较 复杂 的 结构 ， 就 像 下 面 这 样 : 











class ShapeFile(Structure): 
_fields = [ ('>i', 'file_code'), # Big endian 
('20s', ‘unused'), 
‘i', ‘'file_length'), 
"<i', 'version'), # Little endian 
"shape_type'), 
min”); 
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之 前 我 们 提 到 过 ， memoryview() 的 使 用 可 以 帮助 我 们 避免 内 存 的 复制 。 EERE 
的 时 候 ， memoryviews 可 以 县 加 同一 内 存 区 域 上 定义 的 机 构 的 不 同 部 分 。 这 个 特性 比较 微 
妙 ， 但 是 它 关 注 的 是 内 存 视 图 与 普通 字 节 数组 的 切片 操作 行为 。 如 果 你 在 一 个 字 节 字符 
串 或 字 节 数组 上 执行 切片 操作 ， 你 通常 会 得 到 一 个 数据 的 拷贝 。 而 内 存 视图 切片 不 是 这 
样 的 ， 它 仅仅 是 在 已 存在 的 内 存 上 面倒 加 而 已 。 因 此 ， 这 种 方式 更 加 高 效 。 


























还 有 很 多 相关 的 章节 可 以 帮助 我 们 扩展 这 里 讨论 的 方案 。 参考 8.13 小 节 使 用 描述 器 构建 一 
个 类 型 系统 。 8.10 小 节 有 更 多 关于 延迟 计算 属性 值 的 讨论 ， 并 且 跟 NestedStruct 描 述 器 的 
实现 也 有 关 。 9.19 小 节 有 一 个 使 用 元 类 来 初始 化 类 成 员 的 例子 ， 和 structuremeta 类 非常 
相似 。 Python 的 ctypes 源码 同样 也 很 有 趣 ， 它 提供 了 对 定义 数据 结构 、 数 据 结构 嵌 套 
这 些 相 似 功 能 的 文 持 。 


6.13 数据 的 累加 与 统计 操作 


问题 








你 需要 处 理 一 个 很 大 的 数据 集 并 需要 计算 数据 总 和 或 其 他 统计 量 。 











对 于 任何 涉及 到 统计 、 时 间 序 列 以 及 其 他 相关 技术 的 数据 分 析 问 题 ， 都 可 以 考虑 使 用 
Pandas 库 。 


为 了 让 你 先 体验 下 ， 下 面 是 一 个 使 用 Pandas 来 分 析 芝 加 哥 城市 的 老鼠 和 吐 齿 类 动物 数据 
库 的 例子 。 在 我 写 这 篇 文章 的 时 候 ， 这 个 数据 库 是 一 个 拥有 大 概 74,000 行 数据 的 CSV 文 
FF 





>>> import pandas 


>>> # Read a CSV file, skipping Last Line 

>>> rats = pandas.read_csv('rats.csv', skip_footer=1) 
>>> rats 

<class 'pandas.core.frame.DataFrame' > 

Int64Index: 74055 entries, © to 74054 

Data columns: 

Creation Date 74055 non-null values 

Status 74055 non-null values 

Completion Date 72154 non-null values 

Service Request Number 74055 non-null values 

Type of Service Request 74055 non-null values 
Number of Premises Baited 65804 non-null values 
Number of Premises with Garbage 65600 non-null values 
Number of Premises with Rats 65752 non-null values 
Current Activity 66041 non-null values 

Most Recent Action 66023 non-null values 

Street Address 74055 non-null values 

ZIP Code 73584 non-null values 

X Coordinate 74043 non-null values 

Y Coordinate 74043 non-null values 

Ward 74044 non-null values 

Police District 74044 non-null values 

Community Area 74044 non-null values 

Latitude 74043 non-null values 

Longitude 74043 non-null values 

Location 74043 non-null values 

dtypes: float64(11), object(9) 


>>> # Investigate range of values for a certain field 

>>> rats['Current Activity’ ].unique() 

array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object) 
>>> # Filter the data 


>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew ] 
>>> len(crew_dispatched) 

65676 

>>> 


>>> # Find 10 most rat-infested ZIP codes in Chicago 
>>> crew_dispatched[ ‘ZIP Code'].value_counts()[:10] 
60647 3837 

60618 3530 

60614 3284 

60629 3251 

60636 2801 

60657 2465 

60641 2238 

60609 2206 

60651 2152 

60632 2071 

>>> 


>>> # Group by completion date 

>>> dates = crew_dispatched.groupby('Completion Date ' ) 
<pandas.core.groupby.DataFrameGroupBy object at @x1@d@a2a10> 
>>> len(dates) 


472 
>>> 


>>> # Determine counts on each day 


>>> date_counts = dates.size() 
>>> date_counts[@:102] 


Completion 
01/03/2011 
01/03/2012 
01/04/2011 
01/04/2012 
01/05/2011 
01/05/2012 
01/06/2011 
01/06/2012 
01/07/2011 
01/09/2012 
>>> 


>>> # Sort 


Date 
4 
125 


the counts 


>>> date_counts.sort() 
>>> date_counts[-10: ] 


Completion 
10/12/2012 
10/21/2011 
09/20/2011 
10/26/2011 
02/22/2011 
10/26/2012 
03/17/2011 
10/13/2011 
10/14/2011 
10/07/2011 
>>> 
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Pandas: — ^} 


Date 
313 
314 
316 
319 
325 
333 
336 
378 
391 
457 








有 很 多 特性 的 大 型 函数 库 ， 我 在 这 里 不 可 





但 是 只 要 你 需要 去 


分 析 大 型 数据 集合 、 对 数据 分 组 、 计 算 各 种 统计 量 或 其 他 类 似 任 务 的 话 ， 这 个 函数 库 真 的 





第 七 章 : 


值得 你 去 看 一 看 。 


PK BBL 








使 用 det 语句 定义 函数 是 所 有 程序 的 基础 。 本 章 的 目标 是 讲解 一 些 更 加 高 级 和 不 常见 的 
函数 定义 与 使 用 模式 。 涉及 到 的 内 容 包括 默认 参数 、 任 意 数量 参数 、 强 制 关 键 字 参 数 、 
另外 ， 一 些 高 级 的 控制 流 和 利用 回调 函数 传递 数据 的 技术 在 这 里 也 会 讲解 


注解 和 闭 包 。 








到 。 
Contents: 
7.1 可 接受 任意 数量 参数 的 函数 


问题 





你 想 构造 一 个 可 接受 任意 数量 参数 的 函数 。 








为 了 能 让 一 个 函数 接受 任意 数量 的 位 置 参 数 ， 可 以 使 用 一 个 ”参数 。 例 如: 


def avg(first, *rest): 
return (first + sum(rest)) / (1 + len(rest)) 


# Sample use 
avg(1, 2) #1.5 
ave(1, 2, 3, 4) # 2.5 





在 这 个 例子 中 ，rest 是 由 所 有 其 他 位 置 参数 组 成 的 元 组 。 然 后 我 们 在 代码 中 把 它 当 成 了 一 
个 序列 来 进行 后 续 的 计算 。 





为 了 接受 任意 数量 的 关键 字 参 数 ， 使 用 一 个 以 “开头 的 参数 。 比 如 : 


import html 


def make_element(name, value, **attrs): 

keyvals = [' %s="%s"' % item for item in attrs.items()] 

attr_str = ''.join(keyvals) 

element = '<{name}{attrs}>{value}</{name}>' .format( 
name=name, 
attrs=attr_str, 
value=html.escape(value) ) 

return element 


# Example 
# Creates ‘<item size="lLarge" quantity="6">ALbatross</item>' 
make_element('item', ‘Albatross', size='large', quantity=6) 


# Creates ‘<p>&Llt;spam&gt;</p>' 
make_element('p', ‘<spam>') 











在 这 里 ，attrs 是 一 个 包含 所 有 被 传 入 进来 的 关键 字 参 数 的 字典 。 











如 果 你 还 希望 某 个 函数 能 同时 接受 任意 数量 的 位 置 参数 和 关键 字 参 数 ， 可 以 同时 使 用 * 和 
站。 比如: 


def anyargs(*args, **kwargs): 
print(args) # A tuple 
print(kwargs) # A dict 





使 用 这 个 函数 时 ， 所 有 位 置 参 数 会 被 放 到 args 元 组 中 ， 所 有 关键 字 参 数 会 被 放 到 字典 
kwargs# . 


讨论 











一 个 * 参 数 只 能 出 现在 函数 定义 中 最 后 一 个 位 置 参数 后 面 ， 而 “参数 只 能 出 现在 最 后 一 个 
参数 。 有 一 点 要 注意 的 是 ， 在 * 参 数 后 面 仍 然 可 以 定义 其 他 参数 。 


def a(x, *args, y): 
pass 


def b(x, *args, y, **kwargs): 
pass 





这 种 参数 就 是 我 们 所 说 的 强制 关键 字 参 数 ， 在 后 面 7.2 小 节 还 会 详细 讲解 到 。 


7.2 只 接受 关键 字 参 数 的 函数 








问题 








你 希望 函数 的 某 些 参数 强制 使 用 关键 字 参 数 传递 








将 强制 关键 字 参 数 放 到 某 个 * 参 数 或 者 当 个 * 后 面 就 能 达到 这 种 效果 。 比 如 : 


def recv(maxsize, *, block): 
"Receives a message’ 
pass 


recv(1024, True) # TypeError 
recv(1024, block=True) # Ok 


利用 这 种 技术 ， 我 们 还 能 在 接受 任意 多 个 位 置 参数 的 函数 中 指定 关键 字 参 数 。 比 如 : 


def mininum(*values, clip=None): 
m = min(values) 
if clip is not None: 
m = clip if clip > m else m 
return m 


minimum(1, 5, 2, -5, 10) # Returns -5 
minimum(1, 5, 2, -5, 10, clip=0) # Returns @ 


讨论 








很 多 情况 下 ， 使 用 强制 关键 字 参 数 会 比 使 用 位 置 参数 表意 更 加 清晰 ， 程 序 也 更 加 具有 可 读 





性 。 例 如 ， 考 虑 下 如 下 一 个 函数 调用 : 


msg = recv(1024, False) 





如 果 调 用 者 对 recv 函 数 并 不 是 很 熟悉 ， 那 他 肯定 不 明白 那个 False 参 数 到 底 来 干 嘛 用 的 。 





但 是 ， 如 果 代码 变 成 下 面 这 样子 的 话 就 清楚 多 了 : 


msg = recv(1024, block=False) 





另外 ， 使 用 强制 关键 字 参 数 也 会 比 使 用 “kwargs 参 数 更 好 ， 因 为 在 使 用 函数 help 的 时 候 输 














出 也 会 更 容易 理解 : 





>>> help(recv) 
Help on function recv in module __main_: 
recv(maxsize, *, block) 

Receives a message 











强制 关键 字 参 数 在 一 些 更 高 级 场合 同样 也 很 有 用 。 例 如， 它们 可 以 被 用 来 在 使 用 *args 和 
“kwargs 参 数 作为 输入 的 函数 中 插入 参数 ，9.11 小 节 有 一 个 这 样 的 例子 。 


7.3 给 函数 参数 增加 元 信息 
问题 


你 写 好 了 一 个 函数 ， 然 后 想 为 这 个 函数 的 参数 增加 一 些 额 外 的 信息 ， 这 样 的 话 其 他 使 用 者 
就 能 清楚 的 知道 这 个 函数 应 该 怎么 使 用 。 





使 用 函数 参数 注解 是 一 个 很 好 的 办 法 ， 它 能 提示 程序 员 应 该 怎样 正确 使 用 这 个 函数 。 例 
如 ， 下 面 有 一 个 被 注解 了 的 函数 : 


def add(x:int, y:int) -> int: 
return x + y 


python 解 释 器 不 会 对 这 些 注解 添加 任何 的 语义 。 它 们 不 会 被 类 型 检查 ， 运 行 时 跟 没 有 加 
注解 之 前 的 效果 也 没有 任何 差距 。 然 而， 对 于 那些 阅读 源码 的 人 来 讲 就 很 有 帮助 啦 。 第 
三 方 工具 和 框架 可 能 会 对 这 些 注 解 添加 语义 。 同 时 它们 也 会 出 现在 文档 中 。 











>>> help(add) 

Help on function add in module __main__ 
add(x: int, y: int) -> int 

>>> 


尽管 你 可 以 使 用 任意 类 型 的 对 象 给 函数 添加 注解 (例如 数字 ， 字 符 串 ， 对 象 实例 等 等 )， 不 
过 通常 来 讲 使 用 类 或 着 字符 串 会 比较 好 点 。 


讨论 


函数 注解 只 存储 在 函数 的 __annotations ”属性 中 。 例 如 : 


>>> add.__annotations__ 
{'y': <class ‘int'>, ‘return': <class ‘int'>, 'x': <class ‘int'>} 


尽管 注解 的 使 用 方法 可 能 有 很 多 种 ， 但 是 它们 的 主要 用 途 还 是 文档 。 因为 python 并 没有 
类 型 声明 ， 通 常 来 讲 仅仅 通过 阅读 源码 很 难 知道 应 该 传递 什么 样 的 参数 给 这 个 函数 。 这 
时 候 使 用 注解 就 能 给 程序 员 更 多 的 提示 ， 让 他 们 可 以 争取 的 使 用 函数 。 








参考 9.20 小 节 的 一 个 更 加 高 级 的 例子 ， 演 示 了 如 何 利用 注解 来 实现 多 分 派 ( 比 如 重 载 函 
数 )。 


7.4 返回 多 个 值 的 函数 
问题 


你 希望 构造 一 个 可 以 返回 多 个 值 的 函数 





fi OR TT R 
为 了 能 返回 多 个 值 ， 函 数 直接 return 一 个 元 组 就 行 了 。 例 如 : 


>>> def myfun(): 
. return 1, 2, 3 


>>> a, b, c = myfun() 
>>> a 

1 

>>> b 

2 

>>> C 

3 


讨论 


尽管 myfun() 看 上 去 返回 了 多 个 值 ， 实 际 上 是 先 创建 了 一 个 元 组 然后 返回 的 。 这 个 语法 看 
上 去 比较 奇怪 ， 实 际 上 我 们 使 用 的 是 逗号 来 生成 一 个 元 组 ， 而 不 是 用 括号 。 比 如 下 面 的 : 








>>> a = (1, 2) # With parentheses 
>>> a 

(1, 2) 

>>> b = 1, 2 # Without parentheses 
>>> b 

(1, 2) 

>>> 





当 我 们 调用 返回 一 个 元 组 的 函数 的 时 候 ， 通 常 我 们 会 将 结果 赋值 给 多 个 变量 ， 就 像 上 面 
的 那样 。 其 实 这 就 是 1.1 小 节 中 我 们 所 说 的 元 组 解 包 。 返 回 结 果 也 可 以 赋值 给 单个 变量 ， 
这 时 候 这 个 变量 值 就 是 函数 返回 的 那个 元 组 本 身 了 : 

















>>> x = myfun() 
>>> X 

(1, 2, 3) 

>>> 


7.5 定义 有 默认 参数 的 函数 
问题 


你 想 定义 一 个 函数 或 者 方法 ， 它 的 一 个 或 多 个 参数 是 可 选 的 并 且 有 一 个 默认 值 。 





解决 方案 


定义 一 个 有 可 选 参数 的 函数 是 非常 简单 的 ， 直 接 在 函数 定义 中 给 参数 指定 一 个 默认 值 ， 并 
放 到 参数 列表 最 后 就 行 了 。 例 如 ; 


def spam(a, b=42): 
print(a, b) 


spam(1) # Ok. a=1, b=42 
spam(1, 2) # Ok. a=1, b=2 


如 果 默 认 参 数 是 一 个 可 修改 的 容器 比如 一 个 列表 、 集 合 或 者 字典 ， 可 以 使 用 None 作 为 默 
认 值 ， 就 像 下 面 这 样 : 





# Using a List as a default value 
def spam(a, b=None): 
if b is None: 


b= [] 


如 果 你 并 不 想 提 供 一 个 默认 值 ， 而 是 想 仅 仅 测试 下 某 个 默认 参数 是 不 是 有 传递 进来 ， 可 以 
像 下 面 这 样 写 : 





_no_value = object() 


def spam(a, b=_no_value): 
if b is no value: 
print('No b value supplied’) 


我 们 测试 下 这 个 函数 : 


>>> spam(1) 

No b value supplied 

>>> spam(1, 2) #b=2 

>>> spam(1, None) # b = None 
>>> 


仔细 观察 可 以 发 现 到 传递 一 个 None 值 和 不 传 值 两 种 情况 是 有 差别 的 。 








讨论 














定义 带 默 认 值 参数 的 函数 是 很 简单 的 ， 但 绝 不 仅仅 只 是 这 个 ， 还 有 一 些 东西 在 这 里 也 深入 
讨论 下 。 








首先 ， 默 认 参 数 的 值 仅 仅 在 函数 定义 的 时 候 赋 值 一 次 。 试 着 运行 下 面 这 个 例子 : 


>>> x = 42 
>>> def spam(a, b=x): 
print(a, b) 


>>> spam(1) 

1 42 

>>> x = 23 # Has no effect 
>>> spam(1) 

1 42 

>>> 


注意 到 当 我 们 改变 x 的 值 的 时 候 对 默认 参数 值 并 没有 影响 ， 这 是 因为 在 函数 定义 的 时 候 就 
己 经 确定 了 它 的 默认 值 了 。 











其 次 ， 默 认 参 数 的 值 应 该 是 不 可 变 的 对 象 ， 比 如 None、True、False、 数 字 或 字符 串 。 特 
别 的 ， 千 万 不 要 像 下 面 这 样 写 代码 : 








def spam(a, b=[]): # NO! 





如 果 你 这 么 做 了 ， 当 默认 值 在 其 他 地 方 被 修改 后 你 将 会 遇 到 各 种 麻烦 。 这 些 修 改 会 影响 到 
下 次 调用 这 个 函数 时 的 默认 值 。 比 如 : 





>> 


Vv 


def spam(a, b=[]): 
print(b) 
return b 


>>> x = spam(1) 


>>> X.append(99) 

>>> X.append('Yow!') 

>>> x 

[99, ‘Yow! '] 

>>> spam(1) # Modified List gets returned! 
[99, ‘Yow! '] 

>>> 


这 种 结果 应 该 不 是 你 想 要 的 。 为 了 避免 这 种 情况 的 发 生 ， 最 好 是 将 默认 值 设 为 None， 然 
后 在 函数 里 面 检 查 它 ， 前 面 的 例子 就 是 这 样 做 的 。 








在 测试 None 值 时 使 用 is 操作 符 是 很 重要 的 ， 也 是 这 种 方案 的 关键 点 。 有 时 候 大 家 会 犯 
下 下 面 这 样 的 错误 : 


def spam(a, b=None): 
if not b: # NO! Use 'b is None' instead 
b = [] 





这 么 写 的 问题 在 于 尽管 None 值 确实 是 被 当成 False， 但 是 还 有 其 他 的 对 象 (比如 长 度 为 0 的 
字符 串 、 列 表 、 元 组 、 字 和 典 等 ) 都 会 被 当做 False。 因 此 ， 上 面 的 代码 会 误 将 一 些 其 他 输入 
也 当成 是 没有 和 输入。 比如: 





>>> spam(1) # OK 

>>> x = [] 

>>> spam(1, x) # Silent error. x value overwritten by default 
>>> spam(1, ©) # Silent error. @ ignored 

>>> spam(1, '') # Silent error. '' ignored 





最 后 一 个 问题 比较 微妙 ， 那 就 是 一 个 函数 需要 测试 某 个 可 选 参数 是 否 被 使 用 者 传递 进来 。 
这 时 候 需要 小 心 的 是 你 不 能 用 茶 个 默认 值 比如 None、 0 或 者 False 值 来 测试 用 户 提 供 的 值 
(因为 这 些 值 都 是 合 法 的 值 是 可 能 被 用 户 传递 进来 的 )。 因此， 你 需要 其 他 的 解决 方案 
了 。 














为 了 解决 这 个 问题 ， 你 可 以 创建 一 个 独一无二 的 私有 对 象 实例 ， 就 像 上 面 的 _no aye 
量 那样 。 在 函数 里 面 ， 你 可 以 通过 检查 被 传递 参数 值 跟 这 个 实例 是 否 一 样 来 判断 。 

的 思路 是 用 户 不 可 能 去 传递 这 个 _no_value 实 例 作 为 输入 。 因 此 ， 这 里 通过 检查 这 个 
能 确定 茶 个 参数 是 否 被 传递 进来 了 。 














这 里 对 object() 的 使 用 看 上 去 有 点 不 太 常 见 。 object 是 python 中 所 有 类 的 基 类 。 你 可 
以 创建 object 类 的 实例 ， 但 是 这 些 实例 没什么 实际 用 处 ， 因 为 它 并 没有 任何 有 用 的 方 
法 ， 也 没有 莪 任何 实例 数据 (因为 它 没 有 任何 的 实例 字典 ， 你 甚至 都 不 能 设置 任何 属性 
值 )。 你 唯一 能 做 的 就 是 测试 同一 性 。 这 个 刚好 符合 我 的 要 求 ， 因 为 我 在 函数 中 就 只 是 需 
要 一 个 同一 性 的 测试 而 已 。 

















7.6 定义 匿名 或 内 联 函 数 
问题 


你 想 为 sort() 操作 创建 一 个 很 短 的 回调 函数 ， 但 又 不 想 用 def 去 写 一 个 单行 函数 ， 而 
是 希望 通过 茶 个 快捷 方式 以 内 联 方式 来 创建 这 个 函数 。 





解决 方案 





当 一 些 函数 很 简单 ， 仅 仅 只 是 计算 一 个 表达 式 的 值 的 时 候 ， 就 可 以 使 用 ambda 表 达 式 来 
代替 了 。 比 如 : 


>>> add = lambda x, y: x + y 
>>> add(2,3) 

5 

>>> add('hello', 'world') 
"helloworld' 

>>> 


这 里 使 用 的 lambda 表 达 式 跟 下 面 的 效果 是 一 样 的 : 


>>> def add(x, y): 
return x + y 


>>> add(2,3) 
5 
>>> 











lambda 表 达 式 典 型 的 使 用 场景 是 排序 或 数据 reduce 等 : 


>>> names = ['David Beazley', ‘Brian Jones', 

Pare "Raymond Hettinger', 'Ned Batchelder’ ] 

>>> sorted(names, key=lambda name: name.split()[-1].lower()) 

['Ned Batchelder', ‘David Beazley’, ‘Raymond Hettinger’, ‘Brian Jones' ] 
>>> 


讨论 








尽管 lambda 表 达 式 允许 你 定义 简单 函数 ， 但 是 它 的 使 用 是 有 限制 的 。 你 只 能 指定 单个 表 
达 式 ， 它 的 值 就 是 最 后 的 返回 值 。 也 就 是 说 不 能 包含 其 他 的 语言 特性 了 ， 包 括 多 个 语 
句 、 条 件 表达 式 、 达 代 以 及 异常 处 理 等 等 。 





















































你 可 以 不 使 用 lambda 表 达 式 就 能 编写 大 部 分 python 代 码 。 但 是 ， 当 有 人 编写 大 量 计算 表 
达 式 值 的 短小 函数 或 者 需要 用 户 提供 回调 函数 的 程序 的 时 候 ， 你 就 会 看 到 lambda 表 达 式 
的 身影 了 。 














7.7 匿 名 函数 捕获 变量 值 
问题 


你 用 lambda 定 义 了 一 个 匿名 函数 ， 并 想 在 定义 时 捕获 到 茶 些 变量 的 值 。 








解决 方案 


先 看 下 下 面 代 码 的 效果 : 


>>> x = 10 

>>> a = lambda y: x + y 
>>> X = 20 

>>> b = lambda y: x + y 
>>> 


现在 我 问 你 ，a(10) 和 b(10) 返 回 的 结果 是 什么 ?如 果 你 认为 结果 是 20 和 30， 那 么 你 就 错 


Í: 


>>> a(10) 
30 
>>> b(10) 
30 
>>> 








这 其 中 的 奥妙 在 于 lambda 表 达 式 中 的 x 是 


个 自由 变量 ， 


在 运行 时 绑 定 值 ， 而 不 是 定义 时 





就 绑 定 ， 这 跟 函 数 的 默认 值 参 数 定义 是 不 同 的 。 因此， 在 调用 这 个 lambda 表 达 式 的 时 





候 ，x 的 值 是 执行 时 的 值 。 例 如 : 








>>> x = 15 


>>> a(10) 
25 
>>> x = 3 
>>> a(10) 
13 
>>> 


如 果 你 想 让 某 个 匿名 函数 在 定义 时 就 捕获 到 值 ， 可 以 将 那个 参数 值 定义 成 默认 参数 即 可 ， 





就 像 下 面 这 样 : 
>>> x = 10 
>>> a = lambda y, x=x: x + y 
>>> x = 20 
>>> b = lambda y, x=x: x + y 
>>> a(10) 
20 
>>> b(10) 
30 


>>> 








讨论 








在 这 里 列 出 来 的 问题 是 新 手 很 容易 犯 的 错误 ， 有 些 新 手 可 能 会 不 恰当 的 lambda 表 达 式 。 
比如 ， 通 过 在 一 个 循环 或 列表 推导 中 创建 一 个 lambda 表 达 式 列表 ， 并 期 望 函数 能 在 定义 
时 就 记 住 每 次 的 迭代 值 。 例 如 ; 





>>> funcs = [lambda x: x+n for n in range(5) ] 
>>> for f in funcs: 
. print(#(@)) 


BRRA LH. . 











但 是 实际 效果 是 运行 是 n 的 值 为 迭代 的 最 后 一 个 值 。 现 在 我 们 用 男 一 种 方式 修改 一 下 : 








>>> funcs = [lambda x, n=n: x+n for n in range(5)] 
>>> for f in funcs: 
. print(#(@)) 


BWNHRPR Oe: >à: 





通过 使 用 函数 默认 值 参数 形式 ，lambda 函 数 在 定义 时 就 能 绑 定 到 值 。 





7.8 减少 可 调用 对 象 的 参数 个 数 


问题 























你 有 一 个 被 其 他 python 代 码 使 用 的 callable 对 象 ， 可 能 是 一 个 回调 函数 或 者 是 一 个 处 理 
项 ， 但 是 它 的 参数 太 多 了 ， 导 致 调用 时 出 错 。 


如 果 需 要 减少 某 个 函数 的 参数 个 数 ， 你 可 以 使 用 functools.partial() 。 partial() 函数 
允许 你 给 一 个 或 多 个 参数 设置 固定 的 值 ， 减 少 接 下 来 被 调用 时 的 参数 个 数 。 为 了 演示 清 
楚 ， 假 设 你 有 下 面 这 样 的 函数 : 





def spam(a, b, c, d): 
print(a, b, c, d) 


现在 我 们 使 用 partial() 函数 来 固定 某 些 参数 值 : 





>>> from functools import partial 

>>> s1 = partial(spam, 1) #a = 1 

>>> s1(2, 3, 4) 

1234 

>>> s1(4, 5, 6) 

1456 

>>> s2 = partial(spam, d=42) # d = 42 
>>> s2(1, 2, 3) 

1 2 3 42 

>>> s2(4, 5, 5) 

455 42 

>>> s3 = partial(spam, 1, 2, d=42) #a = 1, b= 2, d = 42 
>>> s3(3) 

1 2 3 42 

>>> s3(4) 

12 4 42 

>>> S3(5) 

125 42 


可 以 看 出 partial() 固定 某 些 参数 并 返回 一 个 新 的 callable 对 象 。 这 个 新 的 callable 接 受 未 
赋值 的 参数 ， 然后 跟 之 前 已 经 赋值 过 的 参数 合并 起 来 ， 最 后 将 所 有 参数 传递 给 原始 函 
数 。 








讨论 





本 节 要 解决 的 问题 是 让 原本 不 兼容 的 代码 可 以 一 起 工作 。 下 面 我 会 列举 一 系列 的 例子 。 


第 一 个 例子 是 ， 假 设 你 有 一 个 点 的 列表 来 表示 (xy) 坐 标 元 组 。 你 可 以 使 用 下 面 的 函数 来 计 
算 两 点 之 间 的 距离 : 


points = [ (1, 2), (3, 4), (5, 6), (7; 8) ] 


import math 
def distance(p1, p2): 
x1, y1 = p1 
x2, y2 = p2 
return math.hypot(x2 - x1, y2 - y1) 








现在 假设 你 想 以 某 个 点 为 基点 ， 根 据点 和 基点 之 间 的 距离 来 排序 所 有 的 这 些 点 。 列表 的 
sort() 方法 接受 一 个 关键 字 参 数 来 自 定 义 排序 逻辑 ， 但 是 它 只 能 接受 一 个 单个 参数 的 函 
数 (distance() 很 明显 是 不 符合 条 件 的 )。 现在 我 们 可 以 通过 使 用 partial() 来 解决 这 个 问 


题 : 














>>> pt = (4, 3) 

>>> points.sort(key=partial(distance, pt) ) 
>>> points 

[(3, 4), (1, 2), (5, 6), (7, 8)] 

>>> 


更 进一步 ， partial() 通常 被 用 来 微调 其 他 库 函 数 所 使 用 的 回调 函数 的 参数 。 例 如 ， 下 面 
是 一 段 代 码 ， 使 用 multiprocessing 来 异步 计算 一 个 结果 值 ， 然 后 这 个 值 被 传递 给 一 个 接 
受 一 个 result 值 和 一 个 可 选 logging 参 数 的 回调 函数 : 











def output_result(result, log=None): 
if log is not None: 
log.debug('Got: %r', result) 


# A sample function 
def add(x, y): 
return x + y 


if name == ' main_' 
import logging 
from multiprocessing import Pool 
from functools import partial 


logging.basicConfig(level=logging.DEBUG) 
log = logging.getLogger('test') 


p = Pool() 

p-apply_async(add, (3, 4), callback=partial(output_result, log=log)) 
p.close() 

p.join() 


“42 apply_async() 提供 回调 函数 时 ， 通 过 使 用 partial’) 传递 额外 的 logging BR. 
而 multiprocessing 对 这 些 一 无 所 知 一 一 它 仅 仅 只 是 使 用 单个 值 来 调用 回调 函数 。 


作为 一 个 类 似 的 例子 ， 考 虑 下 编写 网 络 服务 器 的 问题 ， socketserver 模块 让 它 变 得 很 容 
易 。 下面 是 个 简单 的 echo 服 务 器 : 


from socketserver import StreamRequestHandler, TCPServer 


class EchoHandler(StreamRequestHandler): 
def handle(self): 
for line in self.rfile: 
self.wfile.write(b'GOT:' + line) 


serv = TCPServer(('', 15000), EchoHandler) 
serv.serve_forever() 


不 过 ， 假 设 你 想 给 EchoHandler 增 加 一 个 可 以 接受 其 他 配置 选项 的 _init_ D. kE 
如 : 


class EchoHandler(StreamRequestHandler): 
# ack is added keyword-only argument. *args, **kwargs are 
# any normal parameters supplied (which are passed on) 
def __init__(self, *args, ack, **kwargs): 
self.ack = ack 
super().__init__(*args, **kwargs) 


def handle(self): 
for line in self.rfile: 
self.wfile.write(self.ack + line) 








这 么 修改 后 ， 我 们 就 不 需要 显 式 地 在 TCPServer 类 中 添加 前 缀 了 。 但 是 你 再 次 运行 程序 后 
会 报 类 似 下 面 的 错误 : 





Exception happened during processing of request from ('127.0.0.1', 59834) 
Traceback (most recent call last): 


TypeError: init__() missing 1 required keyword-only argument: ‘ack’ 


初 看 起 来 好 像 很 难 修 正 这 个 错误 ， 除 了 修改 socketserver 模块 源 代 码 或 者 使 用 某 些 奇怪 
的 方法 之 外 。 但 是 ， 如 果 使 用 partial() 就 能 很 轻松 的 解决 一 一 给 它 传递 ack 参数 的 值 
来 初始 化 即 可 ， 如 下 : 





from functools import partial 
serv = TCPServer(('', 15000), partial(EchoHandler, ack=b'RECEIVED: ')) 
serv.serve_forever() 


在 这 个 例子 中 ， int O 方法 中 的 ack 参 数 声明 方式 看 上 去 很 有 趣 ， 其 实 就 是 声明 ack 
为 一 个 强制 关键 字 参 数 。 关于 强制 关键 字 参 数 问题 我 们 在 7.2 小 节 我 们 已 经 讨论 过 了 ， 读 
者 可 以 再 去 回顾 一 下 。 











很 多 时 候 partial() 能 实现 的 效果 ，lambda 表 达 式 也 能 实现 。 比 如 ， 之 前 的 几 个 例子 可 
以 使 用 下 面 这 样 的 表达 式 : 


points.sort(key=lambda p: distance(pt, p)) 
p.apply_async(add, (3, 4), callback=lambda result: output_result(result, log) ) 
serv = TCPServer(('', 15000), 

lambda *args, **kwargs: EchoHandler(*args, ack=b'RECEIVED:', **kwargs) ) 





这 样 写 也 能 实现 同样 的 效果 ， 不 过 相 比 而 已 会 显得 比较 腑 肿 ， 对 于 阅读 代码 的 人 来 讲 也 更 
MEE. 这 时 候 使 用 partial() 可 以 更 加 直观 的 表达 你 的 意图 (给 某 些 参数 预先 赋值 )。 

















二 -一 





7.9 将 单方 法 的 类 转换 为 函数 
问题 


你 有 一 个 除 init O 方法 外 只 定义 了 一 个 方法 的 类 。 为 了 简化 代码 ， 你 想 将 它 转换 成 


大 多 数 情况 下 ， 可 以 使 用 闭 包 来 将 单个 方法 的 类 转换 成 函数 。 举 个 例子 ， 下 面 示例 中 的 
类 允许 使 用 者 根据 茶 个 模板 方案 来 获取 到 URL 链 接地 址 。 


from urllib.request import urlopen 


class UrlTemplate: 
def __init__(self, template): 
self.template = template 


def open(self, **kwargs): 
return urlopen(self.template.format_map(kwargs) ) 


# Example use. Download stock data from yahoo 

yahoo = UrlTemplate('http://finance.yahoo.com/d/quotes.csv?s={names}&f={fields}' ) 

for line in yahoo.open(names='IBM,AAPL,FB', fields='sliciv'): 
print(line.decode('utf-8')) 





这 个 类 可 以 被 一 个 更 简单 的 函数 来 代 蔡 : 


def urltemplate(template): 
def opener (**kwargs): 
return urlopen(template.format_map(kwargs) ) 
return opener 


# Example use 

yahoo = urltemplate('http://finance.yahoo.com/d/quotes.csv?s={names}&f={fields}' ) 

for line in yahoo(names='IBM,AAPL,FB', fields='sliciv'): 
print(line.decode('utf-8')) 


讨论 


大 部 分 情况 下 ， 你 拥有 一 个 单方 法 类 的 原因 是 需要 存储 某 些 额外 的 状态 来 给 方法 使 用 。 
比如 ， 定 义 UrITemplate 类 的 唯一 目的 就 是 先 在 茶 个 地 方 存储 模板 值 ， 以 便 将 来 可 以 在 
open() 方 法 中 使 用 。 











使 用 一 个 内 部 函数 或 者 闭 包 的 方案 通常 会 更 优雅 一 些 。 简 单 来 讲 ， 一 个 财 包 就 是 一 个 函 
数 ， 只 不 过 在 函数 内 部 带 上 了 一 个 额外 的 变量 环境 。 闭 包 关 键 特点 就 是 它 会 记 住 自己 被 
定义 时 的 环境 。 因 此 ， 在 我 们 的 解决 方案 中 ， opener) 函数 记 住 了 template 参数 的 
值 ， 并 在 接 下 来 的 调用 中 使 用 它 。 











任何 时 候 只 要 你 碰 到 需要 给 某 个 函数 增加 额外 的 状态 信息 的 问题 ， 都 可 以 考虑 使 用 闲 包 。 
相 比 将 你 的 函数 转换 成 一 个 类 而 言 ， 闭 包 通 常 是 一 种 更 加 简洁 和 优雅 的 方案 。 











7.10 市 额外 状态 信息 的 回调 函数 


问题 




















你 的 代码 中 需要 依赖 到 回调 函数 的 使 用 (比如 事件 处 理 器 、 等 待 后 台 任 务 完 成 后 的 回调 
等 )， 并 且 你 还 需要 让 回调 函数 拥有 额外 的 状态 值 ， 以 便 在 它 的 内 部 使 用 到 。 





这 一 小节 主要 讨论 的 是 那些 出 现在 很 多 函数 库 和 框架 中 的 回调 函数 的 使 用 一 一 特别 是 跟 有 异 
步 处 理 有 关 的 。 为 了 演示 与 测试 ， 我 们 先 定义 如 下 一 个 需要 调用 回调 函数 的 函数 : 





def apply_async(func, args, *, callback): 
# Compute the result 
result = func(*args) 


# Invoke the callback with the result 
callback(result) 














实际 上 ， 这 段 代 码 可 以 做 任何 更 高 级 的 处 理 ， 包 括 线程 、 进 程 和 定时 器 ， 但 是 这 些 都 不 是 
我 们 要 关心 的 。 我 们 仅仅 只 需要 关注 回调 函数 的 调用 。 下 面 是 一 个 演示 怎样 使 用 上 述 代 
码 的 例子 : 














>>> def print_result(result): 
print('Got:', result) 


>>> def add(x, y): 
return x + y 


>>> apply_async(add, (2, 3), callback=print_result) 

Got: 5 

>>> apply_async(add, (‘hello', ‘world'), callback=print_result) 
Got: helloworld 

>>> 





注意 到 print_result() 函数 仅仅 只 接受 一 个 参数 result 。 不 能 再 传 入 其 他 信息 。 而 当 
你 想 让 回调 函数 访问 其 他 变量 或 者 特定 环境 的 变量 值 的 时 候 就 会 遇 到 麻烦 。 











为 了 让 回调 函数 访问 外 部 信息 ， 一 种 方法 是 使 用 一 个 绑 定 方法 来 代替 一 个 简单 函数 。 比 
如 ， 下 面 这 个 类 会 保存 一 个 内 部 序列 号 ， 每 次 接收 到 一 个 result 的 时 候 序 列 号 加 1: 


class ResultHandler: 


def __init__(self): 
self.sequence = 6 


def handler(self, result): 
self.sequence += 1 
print('[{}] Got: {}'.format(self.sequence, result) ) 


使 用 这 个 类 的 时 候 ， 你 先 创建 一 个 类 的 实例 ， 然 后 用 它 的 handler() 绑 定 方法 来 做 为 回调 
函数 : 


>>> r = ResultHandler() 

>>> apply_async(add, (2, 3), callback=r.handler) 

[1] Got: 5 

>>> apply_async(add, (‘hello', ‘world'), callback=r.handler) 
[2] Got: helloworld 

>>> 





第 二 种 方式 ， 作 为 类 的 蔡 代 ， 可 以 使 用 一 个 财 包 捕 获 状 态 值 ， 例 如 : 








def make_handler(): 
sequence = @ 
def handler(result): 
nonlocal sequence 
sequence += 1 
print('[{}] Got: {}'.format(sequence, result) ) 
return handler 


下 面 是 使 用 闭 包 方 式 的 一 个 例子 : 


>>> handler = make_handler() 

>>> apply_async(add, (2, 3), callback=handler) 

[1] Got: 5 

>>> apply_async(add, ('‘hello', ‘world'), callback=handler) 
[2] Got: helloworld 

>>> 


还 有 另外 一 个 更 高 级 的 方法 ， 可 以 使 用 协 程 来 完成 同样 的 事情 : 


def make_handler(): 
sequence = 0 
while True: 
result = yield 
sequence += 1 
print('[{}] Got: {}'.format(sequence, result) ) 


对 于 协 程 ， 你 需要 使 用 它 的 sendo 方法 作为 回调 函数 ， 如 下 所 示 : 


>>> handler = make_handler() 

>>> next(handler) # Advance to the yield 

>>> apply_async(add, (2, 3), callback=handler.send) 

[1] Got: 5 

>>> apply_async(add, ('‘hello', ‘world'), callback=handler.send) 
[2] Got: helloworld 

>>> 


讨论 





基于 回调 函数 的 软件 通常 都 有 可 能 变 得 非常 复杂 。 一 部 分 原因 是 回调 函数 通常 会 跟 请 求 执 
行 代码 断 开 。 因此 ， 请 求 执行 和 处 理 结果 之 间 的 执行 环境 实际 上 已 经 丢失 了 。 如 果 你 想 
让 回调 函数 连续 执行 多 步 操作 ， 那 你 就 必须 去 解决 如 何 保存 和 恢复 相关 的 状态 信息 了 。 


























至 少 有 两 种 主要 方式 来 捕获 和 保存 状态 信息 ， 你 可 以 在 一 个 对 象 实例 (通过 一 个 绑 定 方法 ) 
或 者 在 一 个 财 包 中 保存 它 。 两 种 方式 相 比 ， 闭 包 或 许 是 更 加 轻 量 级 和 自然 一 点 ， 因 为 它 
们 可 以 很 简单 的 通过 函数 来 构造 。 它 们 还 能 自动 捕获 所 有 被 使 用 到 的 变量 。 因 此 ， 你 无 
需 去 担心 如 何 去 存 储 额 外 的 状态 信息 (代码 中 自动 判定 )。 











如 果 使 用 朵 包 ， 你 需要 注意 对 那些 可 修改 变量 的 操作 。 在 上 面 的 方案 中 ， nonlocal 声明 
语句 用 来 指示 接 下 来 的 变量 会 在 回调 函数 中 被 修改 。 如 果 没 有 这 个 声明 ， 代 码 会 报错 。 








而 使 用 一 个 协 程 来 作为 一 个 回调 函数 就 更 有 趣 了 ， 它 跟 闭 包 方法 密切 相关 。 某 种 意义 上 
来 讲 ， 它 显得 更 加 简洁 ， 因 为 总 共 就 一 个 函数 而 已 。 并且， 你 可 以 很 自由 的 修改 变量 而 
无 需 去 使 用 nontocar | 声明 。 这 种 方式 唯一 缺点 就 是 相对 于 其 他 Python 技术 而 已 或 许 比较 
难以 理解 。 另 外 还 有 一 些 比 较 难 懂 的 部 分 ， 比 如 使 用 之 前 需要 调用 next(》 ， 实 际 使 用 时 
这 个 步骤 很 容易 被 忘记 。 尽 管 如 此 ， 协 程 还 有 其 他 用 处 ， 比 如 作为 一 个 内 联 回调 函数 的 
定义 [下 三 raa): 


























如 果 你 仅仅 只 需要 给 回调 函数 传递 额外 的 值 的 话 ， 还 有 一 种 使 用 partial() 的 方式 也 很 有 
用 。 在 没有 使 用 partial() 的 时 候 ， 你 可 能 经 和 常 看 到 下 面 这 种 使 用 lambda 表 达 式 的 复杂 
代码 : 





>>> apply_async(add, (2, 3), callback=lambda r: handler(r, seq)) 
[1] Got: 5 
>>> 


可 以 参考 7.8 小 节 的 几 个 示例 ， 教 你 如 何 使 用 partial() 来 更 改 参数 签名 来 简化 上 述 代 
码 。 


7.11 内 联 回 调 函 数 


问题 








当 你 编写 使 用 回调 函数 的 代码 的 时 候 ， 担 心 很 多 小 函数 的 扩张 可 能 会 弄 乱 程序 控制 流 。 
你 希望 找到 茶 个 方法 来 让 代码 看 上 去 更 像 是 一 个 普通 的 执行 序列 。 





解决 方案 


通过 使 用 生成 器 和 协 程 可 以 使 得 回调 函数 内 联 在 某 个 函数 中 。 为 了 演示 说 明 ， 假 设 你 有 
如 下 所 示 的 一 个 执行 某 种 计算 任务 然后 调用 一 个 回调 函数 的 函数 (参考 7.10 小 节 ): 


def apply_async(func, args, *, callback): 
# Compute the result 
result = func(*args) 


# Invoke the callback with the result 
callback(result) 








接 下 来 让 我 们 看 一 下 下 面 的 代码 ， 它 包含 了 一 个 Async 类 和 一 个 inlined_async 装饰 
器 : 


from queue import Queue 
from functools import wraps 


class Async: 
def __init__(self, func, args): 
self.func = func 
self.args = args 


def inlined_async(func): 
@wraps(func) 
def wrapper(*args): 
f = func(*args) 
result_queue = Queue() 
result_queue.put(None) 
while True: 
result = result_queue.get() 
try: 
a = f.send(result) 
apply_async(a.func, a.args, callback=result_queue. put) 
except StopIteration: 
break 
return wrapper 


这 两 个 代码 片段 允许 你 使 用 yield 语句 内 联 回调 步骤 。 比 如 : 


def add(x, y): 
return x + y 


@inlined_async 
def test(): 
r = yield Async(add, (2, 3)) 
print(r) 
r = yield Async(add, ('hello', ‘world')) 
print(r) 
for n in range(10): 
r = yield Async(add, (n, n)) 
print(r) 
print('Goodbye' ) 


如 果 你 调用 test() ， 你 会 得 到 类 似 如 下 的 输出 : 


5 
helloworld 


Goodbye 


你 会 发 现 ， 除 了 那个 特别 的 装饰 器 和 yield 语句 外 ， 其 他 地 方 并 没有 出 现任 何 的 回调 函 
数 (其 实 是 在 后 台 定 义 的 )。 





本 小 节 会 实 实 在 在 的 测试 你 关于 回调 函数 、 生 成 器 和 控制 流 的 知识 。 








首先 ， 在 需要 使 用 到 回调 的 代码 中 ， 关 键 点 在 于 当前 计算 工作 会 挂 起 并 在 将 来 的 某 个 时 候 
重启 (比如 异步 执行 )。 当 计 算 重 启 时 ， 回调 函数 被 调用 来 继续 处 理 结果 。 apply_async() 
函数 演示 了 执行 回调 的 实际 逻辑 ， 尽 管 实际 情况 中 它 可 能 会 更 加 复杂 (包括 线程 、 进 程 、 
事件 处 理 器 等 等 )。 















































计算 的 暂停 与 重启 思路 跟 生成 器 函数 的 执行 模型 不 谋 而 合 。 具体 来 讲 ， yield 操作 会 使 
一 个 生成 器 函数 产生 一 个 值 并 暂停 。 接 下 来 调用 生成 器 的 _next_() 或 send() 方法 又 
会 让 它 从 暂停 处 继续 执行 。 








根据 这 个 思路 ， 这 一 小 节 的 核心 就 在 inline_async() 装饰 器 函数 中 了 。 关键 点 就 是 ， 装 
饰 器 会 逐步 遍历 生成 器 函数 的 所 有 yield 语句， 每 一 次 一 个 。 为 了 这 样 做 ， 刚 开始 的 时 
候 创建 了 一 个 result 队列 并 向 里 面 放 入 一 个 none 值 。 然 后 开始 一 个 循环 操作 ， 从 队列 
中 取出 结果 值 并 发 送 给 生成 器 ， 它 会 持续 到 下 一 个 yield 语句 ， 在 这 里 一 个 async 的 实 
例 被 接受 到 。 然 后 循环 开始 检查 函数 和 参数 ， 并 开始 进行 异步 计算 apply_async() 。 然 
而 ， 这 个 计算 有 个 最 诡异 部 分 是 它 并 没有 使 用 一 个 普通 的 回调 函数 ， 而 是 用 队列 的 
put() 方法 来 回调 。 





























这 时 候 ， 是 时 候 详细 解释 下 到 底 发 生 了 什么 了 。 主 循环 立即 返回 顶部 并 在 队列 上 执行 
get() 操作 。 如 果 数 据 存 在 ， 它 一 定 是 put() 回调 存放 的 结果 。 如 果 没 有 数据 ， 那 么 先 
暂停 操作 并 等 竺 结果 的 到 来 。 这 个 具体 怎样 实现 是 由 apply_async() 函数 来 决定 的 。 如 














果 你 不 相信 会 有 这 么 神奇 的 事情 ， 你 可 以 使 用 multiprocessing 库 来 试 一 下 ， 在 单独 的 进 
程 中 执行 异步 计算 操作 ， 如 下 所 示 : 


if __name__ == ' main _ 
import multiprocessing 
pool = multiprocessing.Pool() 
apply_async = pool.apply_async 


# Run the test function 
test() 


实际 上 你 会 发 现 这 个 真 的 就 是 这 样 的 ， 但 是 





要 解释 清楚 具体 的 控制 流 得 需要 点 时 间 了 。 





将 复杂 的 控制 流 隐藏 到 生成 器 函数 背后 的 例子 在 标准 库 和 第 三 方 包 中 都 能 看 到 。 比如 ， 
在 contextlib 中 的 @contextmanager 装饰 器 使 用 了 一 个 令 人 费解 的 技巧 ， 通 过 一 个 
yield 语句 将 进入 和 离开 上 下 文 管理 器 粘 合 在 
含 了 非常 类 似 的 内 联 回调 。 























起 。 另外 非常 流行 的 Twisted 包 中 也 包 


7.12 访问 闭 包 中 定义 的 变量 


问题 


你 想 要 扩展 函数 中 的 某 个 闭 包 ， 人 允许 它 能 访问 和 修改 函数 的 内 部 变量 





解决 方案 





通常 来 讲 ， 闭 包 的 内 部 变量 对 于 外 界 来 讲 是 完全 隐藏 的 。 但 是 ， 你 可 以 通 
数 并 将 其 作为 函数 属性 绑 定 到 闭 包 上 来 实现 这 个 目的 。 例 如 : 





过 编写 访问 孙 








def sample(): 
n = 0 
# Closure function 
def func(): 
print('n=", n) 


# Accessor methods for n 
def get_n(): 
return n 


def set_n(value): 
nonlocal n 
n = value 


# Attach as function attributes 
func.get_n = get_n 

func.set_n = set_n 

return func 


下 面 是 使 用 的 例子 : 


>>> f = sample() 
>>> FC) 

n= @ 

>>> F.set_n(10) 
>>> FC) 

n= 10 

>>> F.get_n() 

10 

>>> 


讨论 


为 了 说 明 清楚 它 如 何 工作 的 ， 有 两 点 需要 解释 一 下 。 首 先 ， nonlocal 声明 可 以 让 我 们 编 
写 函 数 来 修改 内 部 变量 的 值 。 其次， 函数 属性 允许 我 们 用 一 种 很 简单 的 方式 将 访问 方法 


绑 定 到 闭 包 函数 上 ， 这 个 跟 实 例 方法 很 像 (尽管 并 没有 定义 任何 类 





)。 





还 可 以 进一步 的 扩展 ， 让 闭 包 模拟 类 的 实例 。 你 要 做 的 仅仅 是 复 





字典 实例 中 并 返回 它 即 可 。 例 如 : 


关上 面 的 内 部 函数 到 一 个 


import sys 
class ClosureInstance: 
def __init__(self, locals=None): 
if locals is None: 
locals = sys._getframe(1).f_locals 


# Update instance dictionary with callables 
self.__dict__.update((key,value) for key, value in locals.items() 
if callable(value) ) 
# Redirect special methods 
def __len__(self): 
return self. dict__['__len__'"]() 


# Example use 
def Stack(): 
items = [] 
def push(item): 
items.append(item) 


def pop(): 
return items.pop() 


def __len__(): 
return len(items) 


return ClosureInstance() 


下 面 是 一 个 交互 式 会 话 来 演示 它 是 如 何 工作 的 : 


>>> s = Stack() 

>>> S 
<__main__.ClosureInstance object at @x1@069ed10> 
>>> s.push(10) 

>>> s.push(2@) 

>>> s.push('Hello') 
>>> len(s) 

3 

>>> s.pop() 

"Hello' 

>>> s.pop() 

20 

>>> s.pop() 

10 

>>> 


有 趣 的 是 ， 这 个 代码 运行 起 来 会 比 一 个 普通 的 类 定义 要 快 很 多 。 你 可 能 会 像 下 面 这 样 测试 
它 跟 一 个 类 的 性 能 对 比 : 


class Stack2: 
def __init__(self): 
self.items = [] 


def push(self, item): 
self.items.append(item) 


def pop(self): 
return self.items.pop() 


def len__(self): 


return len(self.items) 


如 果 这 样 做 ， 你 会 得 到 类 似 如 下 的 结果 : 


>>> from timeit import timeit 

>>> # Test involving closures 

>>> s = Stack() 

>>> timeit('s.push(1);s.pop()', ‘from main import s`) 
0.9874754269840196 

>>> # Test involving a class 

>>> s = Stack2() 

>>> timeit('s.push(1);s.pop()', ‘from __main__ import s') 
1.0707052160287276 

>>> 








结果 显示 ， 闭 包 的 方案 运行 起 来 要 快 大 概 8%， 大 部 分 原因 是 因为 对 实例 变量 的 简化 访 
问 ， 闭 包 更 快 是 因为 不 会 涉及 到 额外 的 self 变 量 。 


























Raymond Hettinger 对 于 这 个 问题 设计 出 了 更 加 难以 理解 的 改进 方案 。 不 过 ， 你 得 考虑 下 
是 否 真 的 需要 在 你 代码 中 这 样 做 ， 而 且 它 只 是 真实 类 的 一 个 奇怪 的 蔡 换 而 已 ， 例 如 ， 类 
的 主要 特性 如 继承 、 属 性 、 描 述 器 或 类 方法 都 是 不 能 用 的 。 并 且 你 要 做 一 些 其 他 的 工作 
才能 让 一 些 特殊 方法 生效 (比如 上 面 ClosureInstance 中 重 写 过 的 __len__() Hil ) 











最 后 ， 你 可 能 还 会 让 其 他 阅读 你 代码 的 人 感到 疑惑 ， 为 什么 它 看 起 来 不 像 一 个 普通 的 类 定 
MWe? (当然 ， 他 们 也 想 知道 为 什么 它 运行 起 来 会 更 快 )。 尽 管 如 此 ， 这 对 于 怎样 访问 财 包 
的 内 部 变量 也 不 失 为 一 个 有 趣 的 例子 。 





总 体 上 讲 ， 在 配置 的 时 候 给 闭 包 添 加 方法 会 有 更 多 的 实用 功能 ， 比 如 你 需要 重 置 内 部 状 
态 、 刷 新 缓冲 区 、 清 除 缓存 或 其 他 的 反馈 机 制 的 时 候 。 


第 八 章 : 类 与 对 象 


本 章 主要 关注 点 的 是 和 类 定义 有 关 的 常见 编程 模型 。 包 括 让 对 象 支持 常见 的 Python 特 
性 、 特 殊 方 法 的 使 用 、 类 封装 技术 、 继 承 、 内 存 管理 以 及 有 用 的 设计 模式 。 























Contents: 


8.1 ARNT BRAY FIF AB Se AN 


问题 





你 想 改 变 对 象 实例 的 打印 或 显示 输出 ， 让 它们 更 具 可 读 性 。 








要 改变 一 个 实例 的 字符 串 表 示 ， 可 重新 定义 它 的 str O 和 rer O 方法 。 例 如 : 


class Pair: 
def __init__(self, x, y): 
self.x x 


y 


self.y 


def __repr__(self): 
return 'Pair({@.x!r}, {@.y!r})'.format(self) 


def __str__(self): 
return '({@.x!s}, {@.y!s})'.format(self) 


rer (O) 方法 返回 一 个 实例 的 代码 表示 形式 ， 通 常用 来 重新 构造 这 个 实例 。 内 置 的 
repr() 函数 返回 这 个 字符 串 ， 跟 我 们 使 用 交互 式 解 释 器 显示 的 值 是 一 样 的 。 __str__() 
方法 将 实例 转换 为 一 个 字符 串 ， 使 用 stro 或 prito 函数 会 输出 这 个 字符 串 。 比 如 : 


>>> p = Pair(3, 4) 

>>> p 

Pair(3, 4) # __repr__() output 
>>> print(p) 

(3, 4) # __str__() output 

>>> 


我 们 在 这 里 还 演示 了 在 格式 化 的 时 候 怎样 使 用 不 同 的 字符 串 表 现形 式 。 特别 来 讲 ， !r 格 
式 化 代码 指明 输出 使 用 rer O 来 代替 默认 的 str O 。 你 可 以 用 前 面 的 类 来 试 着 
测试 下 : 


>>> p = Pair(3, 4) 

>>> print('p is {@!r}'.format(p)) 
p is Pair(3, 4) 

>>> print('p is {0}'.format(p) ) 

p is (3, 4) 

>>> 


讨论 





自 定义 _repr_() 和 str O 通常 是 很 好 的 习惯 ， 因 为 它 能 简化 调试 和 实例 输出 。 例 
如 ， 如 果 仅 仅 只 是 打印 输出 或 日 志 输 出 茶 个 实例 ， 那 么 程序 员 会 看 到 实例 更 加 详细 与 有 用 
的 信息 。 





repr O 生成 的 文本 字符 申 标准 做 法 是 需要 让 eval(repr GD) == x 为 真 。 如 果实 在 不 
能 这 样子 做 ， 应 该 创建 一 个 有 用 的 文本 表示 ， 并 使 用 < 和 > 括 起 来 。 比 如 ; 


>>> f = open('file.dat') 

>>> f 

<_io.TextIOWrapper name='file.dat' mode='r' encoding='UTF-8'> 
>>> 





WR str O 没有 被 定义 ， 那 么 就 会 使 用 _repr_() RREME. 


上 面 的 format() 方法 的 使 用 看 上 去 很 有 趣 ， 格 式 化 代码 {6.x} 对 应 的 是 第 1 个 参数 的 x 属 
性 。 因 此 ， 在 下 面 的 函数 中 ，0 实 际 上 指 的 就 是 seit AY: 


def _repr__(self): 


return ‘'Pair({@.x!r}, {@.y!r})'.format(self) 


作为 这 种 实现 的 一 个 奉 代 ， 你 也 可 以 使 用 % 操作 符 ， 就 像 下 面 这 样 : 


def _repr__(self): 
return ‘'Pair(%r, %r)' % (self.x, self.y) 


8.2 Fe FAT E AD A 


问题 





A 


尔 想 通过 format() 函数 和 字符 串 方 法 使 得 一 个 对 象 能 支持 自 定义 的 格式 化 。 


解决 方案 


为 了 自 定义 字符 串 的 格式 化 ， 我 们 需要 在 类 上 面 定义 _format_() 方法 。 例 如 : 


_formats = { 


'ymd' : '{d.year}-{d.month}-{d.day}', 
'mdy' : '{d.month}/{d.day}/{d.year}', 
'dmy' : '{d.day}/{d.month}/{d.year}' 
} 


class Date: 
def __init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


def __format__(self, code): 
if code == '' 
code = 'ymd' 
fmt = _formats[code] 
return fmt.format(d=self) 


现在 vate 类 的 实例 可 以 支持 格式 化 操作 了 ， 如 同 下 面 这 样 : 


>>> d = Date(2012, 12, 21) 

>>> format (d) 

"2012-12-21" 

>>> format(d, ‘mdy') 

"12/21/2012' 

>>> 'The date is {:ymd}'.format(d) 
"The date is 2012-12-21' 

>>> 'The date is {:mdy}'.format(d) 
"The date is 12/21/2012' 

>>> 


讨论 


__format__() 方法 给 Python 的 字符 串 格式 化 功能 提供 了 一 个 钩子 。 这 里 需要 着 重 强调 的 
是 格式 化 代码 的 解析 工作 完全 由 类 自己 决定 。 因 此 ， 格 式 化 代码 可 以 是 任何 值 。 例 如 ， 
参考 下 面 来 自 datetime 模块 中 的 代码 : 








>>> from datetime import date 

>>> d = date(2012, 12, 21) 

>>> format(d) 

"2012-12-21" 

>>> format(d,'%A, %B %d, %Y') 

"Friday, December 21, 2012' 

>>> "The end is {:%d %b %Y}. Goodbye'.format(d) 
"The end is 21 Dec 2012. Goodbye’ 

>>> 





对 于 内 置 类 型 的 格式 化 有 一 些 标准 的 约定 。 可 以 参考 string 模 块 文档 说 明 。 


8.3 让 对 象 支 持 上 下 文 管理 协议 


问题 

















你 想 让 你 的 对 象 支持 上 下 文 管理 协议 (with 语句 )。 





解决 方案 


为 了 让 一 个 对 象 兼容 with 语句 ， 你 需要 实现 enter _() 和 
考虑 如 下 的 一 个 类 ， 它 能 为 我 们 创建 一 个 网 络 连 接 : 


-exit_() 方法 。 例 如 ， 


from socket import socket, AF_INET, SOCK_STREAM 


class LazyConnection: 
def __init__(self, address, family=AF_INET, type=SOCK_STREAM): 
self.address = address 
self.family = family 
self.type = type 
self.sock = None 


def __enter__(self): 
if self.sock is not None: 
raise RuntimeError('Already connected’) 
self.sock = socket(self.family, self.type) 
self.sock.connect(self.address) 
return self.sock 


def __exit__(self, exc_ty, exc_val, tb): 
self.sock.close() 
self.sock = None 





这 个 类 的 关键 特点 在 于 它 表 示 了 一 个 网 络 连接 ， 但 是 初始 化 的 时 候 并 不 会 做 任何 事情 ( 比 
如 它 并 没有 建立 一 个 连接 )。 连接 的 建立 和 关闭 是 使 用 with 语句 自动 完成 的 ， 例 如 : 


from functools import partial 


conn = LazyConnection(('www.python.org', 8@)) 

# Connection closed 

with conn as s: 
# conn.__enter__() executes: connection open 
s.send(b'GET /index.html HTTP/1.0\r\n' ) 
s.send(b'Host: www.python.org\r\n' ) 
s.send(b'\r\n') 
resp = b''.join(iter(partial(s.recv, 8192), b'')) 
# conn.__exit__() executes: connection closed 


讨论 


























编写 上 下 文 管理 器 的 主要 原理 是 你 的 代码 会 放 到 with 语句 块 中 执行 。 当 出 现 with 语句 
的 时 候 ， 对 象 的 _enter_() 方法 被 触发 ， 它 返回 的 值 (如 果 有 的 话 ) 会 被 赋值 给 as 声明 
的 变量 。 然 后 ， with 语句 块 里 面 的 代码 开始 执行 。 最 后 ， __exit__() 方法 被 触发 进行 
清理 工作 。 


















































不 管 with 代码 块 中 发 生 什么 ， 上 面 的 控制 流 都 会 执行 完 ， 就 算 代码 块 中 发 生 了 异常 也 是 
一 样 的 。 事 实 上 ， _exit_( 方法 的 第 三 个 参数 包含 了 异常 类 型 、 异 常 值 和 追溯 信息 (如 
果 有 的 话 )。 _exit_() 方法 能 自己 决定 怎样 利用 这 个 异常 信息 ， 或 者 忽略 它 并 返回 一 个 
None 值 。 如 果 _exit_() 返回 True ， 那 么 异常 会 被 清空 ， 就 好 像 什 么 都 没 发 生 一 样 ， 
with 语句 后 面 的 程序 继续 在 正常 执行 。 














还 有 一 个 细节 问题 就 是 LazyConnection 类 是 否 允 许多 个 with 语句 来 散 套 使 用 连接 。 很 
显然 ， 上 面 的 定义 中 一 次 只 能 允许 一 个 socket 连 接 ， 如 果 正 在 使 用 一 个 socket 的 时 候 又 重 
复 使 用 with 语句 ， 就 会 产生 一 个 异常 了 。 不 过 你 可 以 像 下 面 这 样 修改 下 上 面 的 实现 来 解 
决 这 个 问题 : 





from socket import socket, AF_INET, SOCK_STREAM 


class LazyConnection: 
def __init__(self, address, family=AF_INET, type=SOCK_STREAM): 
self.address = address 
self.family = family 
self.type = type 
self.connections = [] 


def __enter__(self): 
sock = socket(self.family, self.type) 
sock.connect(self.address) 
self.connections.append(sock) 
return sock 


def __exit__(self, exc_ty, exc_val, tb): 
self.connections.pop().close() 


# Example use 
from functools import partial 


conn = LazyConnection(('www.python.org', 8@)) 
with conn as s1: 
pass 
with conn as s2: 
pass 
# s1 and s2 are independent sockets 


在 第 二 个 版 本 中 ， LazyConnection 类 可 以 被 看 做 是 某 个 连接 工厂 。 在 内 部 ， 一 个 列表 被 用 
来 构造 一 个 栈 。 每 次 enter O 方法 执行 的 时 候 ， 它 复制 创建 一 个 新 的 连接 并 将 其 加 
入 到 栈 里 面 。 __exit_() 方法 简单 的 从 栈 中 弹出 最 后 一 个 连接 并 关闭 它 。 这 里 稍微 有 点 


难 理解 ， 不 过 它 能 允许 租 套 使 用 with 语句 创建 多 个 连接 ， 就 如 上 面 演示 的 那样 。 


















































在 需要 管理 一 些 资 源 比 如 文件 、 网 络 连接 和 锁 的 编程 环境 中 ， 使 用 上 下 文 管理 器 是 很 普遍 
的 。 这 些 资 源 的 一 个 主要 特征 是 它们 必须 被 手动 的 关闭 或 释放 来 确保 程序 的 正确 运行 。 
例如 ， 如 果 你 请 求 了 一 个 锁 ， 那 么 你 必须 确保 之 后 释放 了 它 ， 否 则 就 可 能 产生 死 锁 。 通 
过 实现 enter () 和 _exit_() 方法 并 使 用 with 语句 可 以 很 容易 的 避免 这 些 问 题 ， 
因为 exit O 方法 可 以 让 你 无 需 担 心 这 些 了 。 












































在 contextmanager 模块 中 有 一 个 标准 的 上 下 文 管理 方案 模板 ， 可 参考 9.22 小 节 。 同时 在 
12.6 小 节 中 还 有 一 个 对 本 节 示 例 程序 的 线程 安全 的 修改 版 。 








8.4 创建 大 量 对 象 时 节省 内 存 方法 


问题 








你 的 程序 要 创建 大 量 ( 可 能 上 百 万 ) 的 对 象 ， 导 致 占用 很 大 的 内 存 。 


对 于 主要 是 用 来 当成 简单 的 数据 结构 的 类 而 言 ， 你 可 以 通过 给 类 添加 _slots ”属性 来 极 
大 的 减少 实例 所 占 的 内 存 。 比 如 : 


class Date: 
__slots = ['year', 'month', 'day'] 
def __init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


当 你 定义 _slots 后 ，Python 就 会 为 实例 使 用 一 种 更 加 紧凑 的 内 部 表示 。 实例 通过 一 
个 很 小 的 固定 大 小 的 数组 来 构建 ， 而 不 是 为 每 个 实例 定义 一 个 字典 ， 这 跟 元 组 或 列表 很 类 
似 。 在 _slots ”中 列 出 的 属性 名 在 内 部 被 映射 到 这 个 数组 的 指定 小 标 上 。 使 用 slots 一 
个 不 好 的 地 方 就 是 我 们 不 能 再 给 实例 添加 新 的 属性 了 ， 只 能 使 用 在 _slots ”中 定义 的 那 
些 属 性 名 。 


讨论 


使 用 slots 后 节省 的 内 存 会 跟 存 储 属 性 的 数量 和 类 型 有 关 。 不过， 一 般 来 讲 ， 使 用 到 的 内 
存 总 量 和 将 数据 存储 在 一 个 元 组 中 差不多 。 为 了 给 你 一 个 直观 认识 ， 假 设 你 不 使 用 slots 
直接 存储 一 个 Date 实 例 ， 在 64 位 的 Python 上面 要 占用 428 字 节 ， 而 如 果 使 用 了 slots， 内 
存 占用 下 降 到 156 字 节 。 如 果 程 序 中 需要 同时 创建 大 量 的 日 期 实例 ， 那 么 这 个 就 能 极 大 的 
减 小 内 存 使 用 量 了 。 


尽管 slots 看 上 去 是 一 个 很 有 用 的 特性 ， 很 多 时 候 你 还 是 得 减少 对 它 的 使 用 冲动 。 Python 
的 很 多 特性 都 依赖 于 普通 的 基于 字典 的 实现 。 另 外， 定义 了 slots 后 的 类 不 再 支持 一 些 普 
通 类 特性 了 ， 比 如 多 继承 。 大 多 数 情况 下 ， 你 应 该 只 在 那些 经 常 被 使 用 到 的 用 作 数 据 结 
构 的 类 上 定义 slots (比如 在 程序 中 需要 创建 茶 个 类 的 几 百 万 个 实例 对 象 )。 

















关于 _slots ”的 一 个 常见 误区 是 它 可 以 作为 一 个 封装 工具 来 防止 用 户 给 实例 增加 新 的 属 
性 。 尽 管 使 用 slots 可 以 达到 这 样 的 目的 ， 但 是 这 个 并 不 是 它 的 初 囊 。 _slots 更 多 的 
是 用 来 作为 一 个 内 存 优化 工具 。 





8.5 在 类 中 封装 属性 名 


问题 











你 想 封 装 类 的 实例 上 面 的 "私有 "数据 ， 但 是 Python 语言 并 没有 访问 控制 。 


<< 





Python 程序 员 不 去 依赖 语言 特性 去 封装 数据 ， 而 是 通过 遵循 一 定 的 属性 和 方法 命名 规约 
来 达到 这 个 效果 。 第 一 个 约定 是 任何 以 单 下 划 线 开头 的 名 字 都 应 该 是 内 部 实现 。 比 如 : 





class A: 
def __init__(self): 
self._internal = 6 # An internal attribute 
self.public = 1 # A public attribute 
def public_method(self): 
A public method 


pass 


def _internal_method(self): 
pass 





Python 并 不 会 真 的 阻止 别人 访问 内 部 名 称 。 但 是 如 果 你 这 么 做 肯定 是 不 好 的 ， 可 能 会 导 
致 脆弱 的 代码 。 同时 还 要 注意 到 ， 使 用 下 划 线 开头 的 约定 同样 适用 于 模块 名 和 模块 级 别 
函数 。 例如， 如 果 你 看 到 茶 个 模块 名 以 单 下 划 线 开头 (比如 _socketj， 那 它 就 是 内 部 实现 。 
类 似 的 ， 模 块 级 别 函 数 比 如 sys._getframe() 在 使 用 的 时 候 就 得 加 倍 小 心 了 。 


你 还 可 能 会 遇 到 在 类 定义 中 使 用 两 个 下 划 线 (_) 开 头 的 命名 。 比 如 : 


class B: 
def __init__(self): 
self.__ private = 0 


def __private_method(self): 
pass 


def public_method(self): 
pass 
self. private_method() 





使 用 双 下 划 线 开始 会 导致 访问 名 称 变 成 其 他 形式 。 比如， 在 前 面 的 类 B 中 ， 私 有 属性 会 被 
分 别 重 命名 为 _B__private 和 _B__private_method œo 这 时 候 你 可 能 会 问 这 样 重 命名 的 目 
的 是 什么 ， 答 案 就 是 继承 一 一 这 种 属性 通过 继承 是 无 法 被 覆盖 的 。 比 如 : 








class C(B): 
def __init__(self): 
super().__init__() 
self.__ private = 1 # Does not override B.__private 


# Does not override B.__private_method() 


def __private_method(self): 
pass 


XE, MAZER private 和 _ private method 被 重 命名 为 c_private 和 
_C__private_method ， 这 个 跟 父 类 B 中 的 名 称 是 完全 不 同 的 。 


讨论 





上 面 提 到 有 两 种 不 同 的 编码 约定 ( 单 下 划 线 和 双 下 划 线 ) 来 命名 私有 属性 ， 那 么 问题 就 来 
T: 到 底 哪 种 方式 好 呢 ? 大 多 数 而 言 ， 你 应 该 让 你 的 非 公 共 名 称 以 单 下 划 线 开头 。 但 
是 ， 如 果 你 清楚 你 的 代码 会 涉及 到 子 类 ， 并 且 有 些 内 部 属性 应 该 在 子 类 中 隐藏 起 来 ， 那 
么 才 考 虑 使 用 双 下 划 线 方案 。 








还 有 一 点 要 注意 的 是 ， 有 时候 你 定义 的 一 个 变量 和 某 个 保留 关键 字 冲 突 ， 这 时 候 可 以 使 用 
单 下 划 线 作为 后 级 ， 例 如 : 


lambda_ = 2.0 # Trailing _ to avoid clash with Lambda keyword 





这 里 我 们 并 不 使 用 单 下 划 线 前 绥 的 原因 是 它 避 免 误 解 它 的 使 用 初衷 (如 使 用 单 下 划 线 前 绥 
的 目的 是 为 了 防止 命名 冲突 而 不 是 指明 这 个 属性 是 私有 的 )。 通 过 使 用 单 下 划 线 后 级 可 以 
解决 这 个 问题 。 





8.6 创建 可 管理 的 属性 


问题 








你 想 给 菜 个 实例 attribute 增 加 除 访问 与 修改 之 外 的 其 他 处 理 逻 辑 ， 比 如 类 型 检查 或 合法 性 
验证 。 














自 定 义 某 个 属性 的 一 种 简单 方法 是 将 它 定 义 为 一 个 property。 例如， 下 面 的 代码 定义 了 一 
个 property， 增 加 对 一 个 属性 简单 的 类 型 检查 : 


class Person: 
def __init__(self, first_name): 
self.first_name = first_name 


# Getter function 

@property 

def first_name(self): 
return self. first name 


# Setter function 
@first_name.setter 
def first_name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
self. first name = value 


# Deleter function (optionaL) 
@first_name.deleter 
def first_name(self): 
raise AttributeError("Can't delete attribute") 











上 述 代码 中 有 三 个 相关 联 的 方法 ， 这 三 个 方法 的 名 字 都 必须 一 样 。 第 一 个 方法 是 一 个 
getter 函数 ， 它 使 得 firstname 成 为 一 个 属性 。 其 他 两 个 方法 给 first_name 属性 添加 
J setter 和 deleter 函数 。 需要 强调 的 是 只 有 在 first_name 属性 被 创建 后 ， 后 面 的 两 


个 装饰 器 @first_name.setter 和 @first_name.deleter 才能 被 定义 。 











property 的 一 个 关键 特征 是 它 看 上 去 跟 普 通 的 attribute 没 什么 两 样 ， 但 是 访问 它 的 时 候 会 
自动 触发 getter 、 setter 和 deleter 方法 。 例 如 : 


>>> a = Person('Guido') 
>>> a.first name # Calls the getter 
"Guido' 
>>> a.first_name = 42 # Calls the setter 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "prop.py", line 14, in first_name 
raise TypeError('Expected a string’) 
TypeError: Expected a string 
>>> del a.first_name 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: cant delete attribute 
>>> 


在 实现 一 个 property 的 时 候 ， 底 层 数据 (如 果 有 的 话 ) 仍 然 需 要 存储 在 某 个 地 方 。 因 此 ， 在 
get 和 set 方 法 中 ， 你 会 看 到 对 _first_name 属性 的 操作 ， 这 也 是 实际 数据 保存 的 地 方 。 另 
外 ， 你 可 能 还 会 问 为 什么 init O0 方法 中 设置 了 self.first_name 而 不 是 
self._first_name 。 在 这 个 例子 中 ， 我 们 创建 一 个 property 的 目的 就 是 在 设置 attribute 的 
时 候 进 行 检查 。 因 此 ， 你 可 能 想 在 初始 化 的 时 候 也 进行 这 种 类 型 检查 。 通 过 设置 
self.first_name ， 自 动 调用 setter 方法 ， 这 个 方法 里 面 会 进行 参数 的 检查 ， 否 则 就 是 
直接 访问 self. first name Jo 











还 能 在 已 存在 的 get 和 set 方 法 基础 上 定义 property。 例 如 : 


class Person: 
def __init__(self, first_name): 
self.set_first_name(first_name) 


# Getter function 
def get_first_name(self): 
return self. _first_name 


# Setter function 
def set_first_name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
self. first name = value 


# Deleter function (optionaL) 
def del_first_name(self): 


raise AttributeError("Can't delete attribute") 


# Make a property from existing get/set methods 
name = property(get_first_name, set_first_name, del_first_name) 


讨论 





一 个 property 属 性 其 实 就 是 一 系列 相关 绑 定 方法 的 集合 。 如 果 你 去 查看 拥有 property 的 
X, 就 会 发 现 property 本 身 的 fget、fset 和 fdel 属 性 就 是 类 里 面 的 普通 方法 。 比 如 : 





>>> Person.first_name.fget 

<function Person.first_name at 0x1006a60e0> 
>>> Person.first_name.fset 

<function Person.first_name at @x1006a6170> 
>>> Person.first_name.fdel 

<function Person.first_name at 0x1006a62e0> 
>>> 





通常 来 讲 ， 你 不 会 直接 取 调 用 fget 或 者 fset， 它 们 会 在 访问 property 的 时 候 自 动 被 触发 。 





只 有 当 你 确实 需要 对 attribute 执 行 其 他 额外 的 操作 的 时 候 才 应 该 使 用 到 property。 有 时 候 
一 些 从 其 他 编程 语言 (比如 Java) 过 来 的 程序 员 总 认为 所 有 访问 都 应 该 通过 getter 和 setter， 
所 以 他 们 认为 代码 应 该 像 下 面 这 样 写 : 





class Person: 
def __init__(self, first_name): 
self.first_name = first_name 


@property 
def first_name(self): 
return self. first name 


@first_name.setter 
def first_name(self, value): 
self. first name = value 


不 要 写 这 种 没有 做 任何 其 他 额外 操作 的 property。 首先 ， 它 会 让 你 的 代码 变 得 很 腔 肿 ， 并 
且 还 会 迷惑 阅读 者 。 其 次 ， 它 还 会 让 你 的 程序 运行 起 来 变 慢 很 多 。 最后， 这 样 的 设计 并 
没有 带 来 任何 的 好 处 。 特别 是 当 你 以 后 想 给 普通 attribute 访 问 添加 额外 的 处 理 逻 辑 的 时 

候 ， 你 可 以 将 它 变 成 一 个 property 而 无 需 改 变 原来 的 代码 。 因为 访问 attribute 的 代码 还 是 
保持 原样 。 


























Properties 还 是 一 种 定义 动态 计算 attribute 的 方法 。 这 种 类 型 的 attributes 并 不 会 被 实际 的 
存储 ， 而 是 在 需要 的 时 候 计 算出 来 。 比 如 : 


import math 
class Circle: 
def __init__(self, radius): 
self.radius = radius 


@property 
def area(self): 
return math.pi * self.radius ** 2 


@property 
def diameter(self): 
return self.radius ** 2 


@property 
def perimeter(self): 
return 2 * math.pi * self.radius 


在 这 里 ， 我 们 通过 使 用 properties， 将 所 有 的 访问 接口 形式 统一 起 来 ， 对 半径 、 直 径 、 周 
长 和 面积 的 访问 都 是 通过 属性 访问 ， 就 跟 访问 简单 的 attribute 是 一 样 的 。 如 果 不 这 样 做 的 
话 ， 那 么 就 要 在 代码 中 混合 使 用 简单 属性 访问 和 方法 调用 。 下 面 是 使 用 的 实例 : 








>>> c = Circle(4.@) 

>>> c.radius 

4.0 

>>> c.area # Notice Lack of () 
5@.26548245743669 

>>> c.perimeter # Notice Lack of () 
25.132741228718345 

>>> 





尽管 properties 可 以 实现 优雅 的 编程 接口 ， 但 有 些 时候 你 还 是 会 想 直接 使 用 getter 和 setter 
函数 。 例 如 : 


>>> p = Person('Guido') 

>>> p.get_first_name() 
"Guido' 

>>> p.set_first_name('Larry') 
>>> 


这 种 情况 的 出 现 通 常 是 因为 Python 代 码 被 集成 到 一 个 大 型 基础 平台 架构 或 程序 中 。 例 
如 ， 有 可 能 是 一 个 Python 类 准备 加 入 到 一 个 基于 远程 过 程 调用 的 大 型 分 布 式 系统 中 。 这 
种 情况 下 ， 直 接 使 用 get/set 方 法 (普通 方法 调用 ) 而 不 是 property 或 许 会 更 容易 兼容 。 




















最 后 一 点 ， 不 要 像 下 面 这 样 写 有 大 量 重 复 代 码 的 property 定 义 : 


class Person: 
def __init__(self, first_name, last_name): 
self.first_name = first_name 
self.last_name = last_name 


@property 
def first_name(self): 
return self. first name 


@first_name.setter 
def first_name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
self._first_name = value 


# Repeated property code, but for a different name (bad!) 
@property 
def last_name(self): 

return self. last name 


@last_name.setter 
def last_name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
self._last_name = value 











重复 代码 会 导致 脐 肿 、 易 出 错 和 丑陋 的 程序 。 好 消息 是 ， 通 过 使 用 装饰 器 或 闭 包 ， 有 很 多 
种 更 好 的 方法 来 完成 同样 的 事情 。 可 以 参考 8.9 和 9.21 小 节 的 内 容 。 

8.7 调用 父 类 方法 

问题 


你 想 在 子 类 中 调用 父 类 的 某 个 已 经 被 种 盖 的 方法 。 


解决 方案 


为 了 调用 父 类 ( 超 类 ) 的 一 个 方法 ， 可 以 使 用 supero 函数 ， 比 如 : 


class A: 
def spam(self): 
print('A.spam' ) 


class B(A): 
def spam(self): 
print('B.spam' ) 
super().spam() # Call parent spam() 


super() 函数 的 一 个 常见 用 法 是 在 init O 方法 中 确保 父 类 被 正确 的 初始 化 了 : 


class A: 
def __init__(self): 
self.x = ð 
class B(A): 


def __init__(self): 
super().__init__() 
self.y = 1 


super() 的 另外 一 个 常见 用 法 出 现在 覆盖 Python 特殊 方法 的 代码 中 ， 比 如 : 


class Proxy: 
def __init__(self, obj): 
self._obj = obj 


# Delegate attribute Lookup to internal obj 
def __getattr__(self, name): 
return getattr(self._obj, name) 


# Delegate attribute assignment 
def __setattr__(self, name, value): 
if name.startswith('_'): 
super().__setattr__(name, value) # Call original __setattr__ 
else: 
setattr(self._obj, name, value) 


在 上 面 代码 中 ， _setattr__() 的 实现 包含 一 个 名 字 检 查 。 如 果 茶 个 属性 名 以 下 划 线 (_) 开 
头 ， 就 通过 super() 调用 原始 的 __setattr_() ， 否 则 的 话 就 委派 给 内 部 的 代理 对 象 
self._obj 去 处 理 。 这 看 上 去 有 点 意思 ， 因 为 就 算 没 有 显 式 的 指明 某 个 类 的 父 类 ， 
super() 仍然 可 以 有 效 的 工作 。 















































讨论 





实际 上 ， 大 家 对 于 在 Python 中 如 何 正 确 使 用 super() 函数 普遍 知之 甚 少 。 你 有 时 候 会 看 
到 像 下 面 这 样 直接 调用 父 类 的 一 个 方法 : 











class Base: 


def __init__ 


print( 


class A(Base): 


def __init__ 


(self): 
"Base. _ 


init") 


(self): 


Base. _ 


init__ 


(self) 


print('A. _ 


init’) 





尽管 对 于 大 部 分 代码 而 言 这 么 做 没什么 问题 ， 但 是 在 更 复杂 的 涉及 到 多 继承 的 代码 中 就 有 
可 能 导致 很 奇怪 的 问题 发 生 。 比如 ， 考 虑 如 下 的 情况 : 


class Base: 
def __init__(self): 
print('Base.__init__') 


class A(Base): 
def __init__(self): 


Base. __ 


init__ 


(self) 


print('A. _ 


init__') 


class B(Base): 


def __init__ 


(self): 


Base. init__(self) 


print('B. _init _') 


class C(A,B): 
def __init__(self): 
A.__init__(self) 
B. init (self) 
print('C. _init _') 


如 果 你 运行 这 段 代 码 就 会 发 现 Base._init_() 被 调用 两 次 ， 如 下 所 示 : 


>>> c = C() 
Base. init__ 
A.__init__ 
Base. init__ 


B. init__ 
Ce Init. _ 
>>> 





可 能 两 次 调用 Base. init_() 没什么 坏处 ， 但 有 时 候 却 不 是 。 另 一 方面 ， 假 设 你 在 代码 
中 换 成 使 用 super() ， 结 果 就 很 完美 了: 


class Base: 
def __init__(self): 
print('Base. _init__') 


class A(Base): 
def __init__(self): 
super().__init__() 
print('A.__init__') 


class B(Base): 
def __init__(self): 
super().__init__() 
print('B. _init _') 


class C(A,B): 
def __init__(self): 
super().__init__() # Only one call to super() here 
print('C. _ init _') 








运行 这 个 新 版 本 后 ， 你 会 发 现 每 个 int 0 方法 只 会 被 调用 一 次 了 : 


53> EC() 
Base. _init _ 


Bi init__ 
A.__init__ 
C._ init _ 
>>> 




















为 了 弄 清 它 的 原理 ， 我 们 需 


要 花 点 时 间 解 释 下 Python 是 如 何 实现 继承 的 。 对 于 你 定义 的 


每 一 个 类 而 已 ，Python 会 计算 出 一 个 所 谓 的 方法 解析 顺序 (MRO) 列 表 。 这 个 MRO 列 表 就 
是 一 个 简单 的 所 有 基 类 的 线性 顺序 表 。 例 如 : 

>>> C.__mro__ 

(<class ' main .C'>, <class ' main .A'>, <class '__main__.B'>, 

<class ' main .Base'>, <class 'object'>) 

>>> 
为 了 实现 继承 ，Python 会 在 MRO 列 表 上 从 左 到 右 开始 查找 基 类 ， 直 到 找到 第 一 个 匹配 这 





个 属性 的 类 为 止 。 


而 这 个 MRO 列 表 的 构造 是 通过 一 个 C3 线性 化 算法 来 实现 的 。 我 们 不 去 深究 这 个 算法 的 数 

















并 所 有 父 类 的 MRO 列 表 并 遵循 如 下 三 条 准则 : 








学 原理 ， 它 实际 上 就 是 合 





。 子 类 会 先 于 父 类 被 检查 


© 多 个 父 类 会 根据 它们 在 列表 中 的 顺序 被 检查 
。 如 果 对 下 一 个 类 存在 两 个 合法 的 选择 ， 选 择 第 一 个 父 类 


老实 说 ， 你 所 要 知道 的 就 是 MRO 列 表 中 的 类 顺序 会 让 你 定义 的 任意 类 层级 关系 变 得 有 意 
Xs 


当 你 使 用 super) 函数 时 ，Python 会 在 MRO 列 表 上 继续 搜索 下 一 个 类 。 只 要 每 个 重 定义 
的 方法 统一 使 用 super() 并 只 调用 它 一 次 ， 那 么 控制 流 最 终 会 遍历 完整 个 MRO 列 表 ， 
个 方法 也 只 会 被 调用 一 次 。 这 也 是 为 什么 在 第 二 个 例子 中 你 不 会 调用 两 次 

Base. _init__() 的 原因 。 

















super() 有 个 令 人 吃惊 的 地 方 是 它 并 不 一 定 去 查找 某 个 类 在 MRO 中 下 一 个 直接 父 类 ， 你 
甚至 可 以 在 一 个 没有 直接 父 类 的 类 中 使 用 它 。 例 如 ， 考 虑 如 下 这 个 类 : 





class A: 
def spam(self): 
print('A.spam' ) 
super().spam() 


如 果 你 试 着 直接 使 用 这 个 类 就 会 出 错 : 


>>> a = AC) 
>>> a.spam() 
A.spam 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "“<stdin>", line 4, in spam 
AttributeError: ‘super’ object has no attribute 'spam' 
>>> 


但 是 ， 如 果 你 使 用 多 继承 的 话 看 看 会 发 生 什 么 : 





>>> class B: 
def spam(self): 
print('B.spam' ) 


>>> class C(A,B): 
pass 

>>> c = C() 

>>> c.spam() 

A.spam 


B.spam 
>>> 


你 可 以 看 到 在 类 A 中 使 用 super().spam() 实际 上 调用 的 是 跟 类 A 毫 无 关系 的 类 B 中 的 
spam() 方法 。 这 个 用 类 C 的 MRO 列 表 就 可 以 完全 解释 清楚 了 : 





>>> C.__mro 


(<class ' main .C'>, <class ' main .A'>, <class '__main__.B'>, 


<class 'object'>) 
>>> 








在 定义 混入 类 的 时 候 这 样 使 用 super() 是 很 普遍 的 。 可 以 参考 8.13 和 8.18 小 节 。 











然而 ， 由 于 super() 可 能 会 调用 不 是 你 想 要 的 方法 ， 你 应 该 遵循 一 些 通用 原则 。 首先 ， 
确保 在 继承 体系 中 所 有 相同 名 字 的 方法 拥有 可 兼容 的 参数 签名 (比如 相同 的 参数 个 数 和 参 
数 名 称 )。 这 样 可 以 确保 super() 调用 一 个 非 直接 父 类 方法 时 不 会 出 错 。 其 次 ， 最 好 确保 
最 顶层 的 类 提供 了 这 个 方法 的 实现 ， 这 样 的 话 在 MRO 上 面 的 查找 链 肯定 可 以 找到 茶 个 确 
定 的 方法 。 











在 Python 社区 中 对 于 supro 的 使 用 有 时 候 会 引 来 一 些 争议 。 尽 管 如 此 ， 如 果 一 切 顺 利 
的 话 ， 你 应 该 在 你 最 新 代码 中 使 用 它 。 Raymond Hettinger 为 此 写 了 一 篇 非常 好 的 文章 
“Python's super() Considered Super”, 通过 大 量 的 例子 向 我 们 解释 了 为 什么 supero 是 
极 好 的 。 





8.8 子 类 中 扩展 property 
问题 


在 子 类 中 ， 你 想 要 扩展 定义 在 父 类 中 的 property 的 功能 。 


考虑 如 下 的 代码 ， 它 定义 了 一 个 property: 


class Person: 
def __init__(self, name): 
self.name = name 


# Getter function 

@property 

def name(self): 
return self. name 


# Setter function 
@name.setter 
def name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
self. name = value 


# Deleter function 
@name.deleter 
def name(self): 
raise AttributeError("Can't delete attribute") 


下 面 是 一 个 示例 类 ， 它 继承 自 Person 并 扩展 了 name 属性 的 功能 : 


class SubPerson(Person): 
@property 
def name(self): 
print('Getting name') 
return super().name 


@name.setter 
def name(self, value): 
print('Setting name to', value) 


super(SubPerson, SubPerson).name.__set__ (self, value) 


@name.deleter 
def name(self): 
print('Deleting name’) 
super(SubPerson, SubPerson).name.__delete_ (self) 


接 下 来 使 用 这 个 新 类 : 


>>> s = SubPerson('Guido' ) 

Setting name to Guido 

>>> S.name 

Getting name 

“Guido 

>>> S.name = ‘Larry' 

Setting name to Larry 

>>> S.name = 42 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in name 

raise TypeError('Expected a string’) 
TypeError: Expected a string 
>>> 





如 果 你 仅仅 只 想 扩 展 property 的 某 一 个 方法 ， 那 么 可 以 像 下 面 这 样 写 : 


class SubPerson(Person): 
@Person.name.getter 
def name(self): 
print('Getting name') 
return super().name 


或 者 ， 你 只 想 修改 setter 方 法 ， 就 这 么 写 : 


class SubPerson(Person): 
@Person.name.setter 
def name(self, value): 
print('Setting name to', value) 
super(SubPerson, SubPerson).name.__set__ (self, value) 





在 子 关中 扩展 一 个 property 可 能 会 引起 很 多 不 易 察觉 的 问题 ， 因 为 一 个 property 其 实 是 
getter 、 setter 和 deleter 方法 的 集合 ， 而 不 是 单个 方法 。 因 此 ， 但 你 扩展 一 个 
property 的 时 候 ， 你 需要 先 确定 你 是 否 要 重新 定义 所 有 的 方法 还 是 说 只 修改 其 中 某 一 个 。 














在 第 一 个 例子 中 ， 所 有 的 property 方 法 都 被 重新 定义 。 在 每 一 个 方法 中 ， 使 用 了 super 
来 调用 父 类 的 实现 。 在 setter 函数 中 使 用 


super(SubPerson，SubpPerson) .name. set (self, value) 的 语句 是 没有 错 的 。 为 了 委托 给 





之 前 定义 的 setter 方 法 ， 需 要 将 控制 权 传递 给 之 前 定义 的 name 属 性 的 _ set_() 方法 。 
不 过 ， 获 取 这 个 方法 的 唯一 途径 是 使 用 类 变量 而 不 是 实例 变量 来 访问 它 。 这 也 是 为 什么 
我 们 要 使 用 super(SubPerson, SubPerson) 的 原因 。 











如 果 你 只 想 重 定义 其 中 一 个 方法 ， 那 只 使 用 @property 本 身 是 不 够 的 。 比 如 ， 下 面 的 代码 
就 无 法 工作 : 


class SubPerson(Person): 
@property # Doesn't work 
def name(self): 
print('Getting name') 
return super().name 


如 果 你 试 着 运行 会 发 现 setter 函 数 整 个 消失 了 : 


>>> s = SubPerson('Guido' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 5, in __init__ 
self.name = name 
AttributeError: can't set attribute 
>>> 


你 应 该 像 之 前 说 过 的 那样 修改 代码 : 


class SubPerson(Person): 
@Person.getter 
def name(self): 
print('Getting name’) 
return super().name 











这 么 写 后 ，property 之 前 已 经 定义 过 的 方法 会 被 复制 过 来 ， 而 getter 函 数 被 蔡 换 。 然 后 它 
就 能 按照 期 望 的 工作 了 : 


>>> S = SubPerson( 'Guido' ) 

>>> S.name 

Getting name 

"Guido' 

>>> S.name = ‘Larry' 

>>> S.name 

Getting name 

'Larry' 

>>> s.name = 42 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in name 

raise TypeError('Expected a string') 
TypeError: Expected a string 
>>> 





在 这 个 特别 的 解决 方案 中 ， 我 们 没 办 法 使 用 更 加 通用 的 方式 去 蔡 换 硬 编码 的 Person 类 
Zo 如 果 你 不 知道 到 底 是 哪个 基 类 定义 了 property， 那 你 只 能 通过 重新 定义 所 有 property 
并 使 用 super() 来 将 控制 权 传递 给 前 面 的 实现 。 








值 的 注意 的 是 上 面 演 示 的 第 一 种 技术 还 可 以 被 用 来 扩展 一 个 描述 器 (在 8.9 小 节 我 们 有 专门 
的 介绍 )。 比 如 : 





# A descriptor 
class String: 
def __init__(self, name): 
self.name = name 


def __get__(self, instance, cls): 
if instance is None: 
return self 
return instance. _dict__[self.name] 


def __set__(self, instance, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
instance. __dict__[self.name] = value 


# A class with a descriptor 
class Person: 
name = String('name') 


def __init__(self, name): 
self.name = name 


# Extending a descriptor with a property 
class SubPerson(Person): 
@property 
def name(self): 
print('Getting name') 
return super().name 


@name.setter 
def name(self, value): 
print('Setting name to', value) 
super(SubPerson, SubPerson).name.__set__ (self, value) 


@name.deleter 
def name(self): 
print( ‘Deleting name ' ) 
super(SubPerson, SubPerson).name.__delete_ (self) 








最 后 值 的 注意 的 是 ， 读 到 这 里 时 ， 你 应 该 会 发 现 子 类 化 setter 和 deleter 方法 其 实 是 很 
简单 的 。 这 里 演示 的 解决 方案 同样 适用 ， 但 是 在 Python 的 issue 页 面 报告 的 一 个 bug， 或 
许 会 使 得 将 来 的 Python 版 本 中 出 现 一 个 更 加 简洁 的 方法 。 











8.9 创建 新 的 类 或 实例 属性 
问题 


你 想 创建 一 个 新 的 拥有 一 些 额 外 功能 的 实例 属性 类 型 ， 比 如 类 型 检查 。 





ERIT R 





如 果 你 想 创 建 一 个 全 新 的 实例 属性 ， 可 以 通过 一 个 描述 器 类 的 形式 来 定义 它 的 功能 。 下 面 
是 一 个 例子 : 


# Descriptor attribute for an integer type-checked attribute 
class Integer: 
def __init__(self, name): 
self.name = name 


def __get__(self, instance, cls): 
if instance is None: 
return self 
else: 
return instance. __dict__[self.name] 


def __set__(self, instance, value): 
if not isinstance(value, int): 
raise TypeError('Expected an int’) 


instance. dict [self.name] = value 


def _delete__(self, instance): 
del instance. dict [self.name] 





一 个 描述 器 就 是 一 个 实现 了 三 个 核心 的 属性 访问 操作 (get, set, delete) WIZE, 分别 为 
_get_() ~ _set_() 和 _ delete_() 这 三 个 特殊 的 方法 。 这 些 方法 接受 一 个 实例 作 
为 输入 ， 之 后 相应 的 操作 实例 底层 的 字典 。 





为 了 使 用 一 个 描述 器 ， 需 将 这 个 描述 器 的 实例 作为 类 属性 放 到 一 个 类 的 定义 中 。 例 如 : 


class Point: 
x = Integer('x') 
y = Integer('y') 


def __init__(self, x, y): 
self.x = x 
self.y = y 





当 你 这 样 做 后 ， 所 有 队 描 述 器 属性 (比如 x 或 y) 的 访问 会 被 _get_() 、_set_() 和 
_delete_() 方法 捕获 到 。 例 如 : 





>>> p = Point(2, 3) 
>>> p.x # Calls Point.x.__get__(p,Point) 
2 
>>> p.y = 5 # Calls Point.y.__set__(p, 5) 
>>> p.x = 2.3 # Calls Point.x.__set__(p, 2.3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "descrip.py", line 12, in _set__ 
raise TypeError('Expected an int’) 
TypeError: Expected an int 
>>> 


作为 输入 ， 描 述 器 的 每 一 个 方法 会 接受 一 个 操作 实例 。 为 了 实现 请 求 操 作 ， 会 相应 的 操 
作 实例 底层 的 字典 (_dict_ 属 性 )。 描述 器 的 self.name 属性 存储 了 在 实例 字典 中 被 实际 使 
用 到 的 key。 





讨论 


描述 器 可 实现 大 部 分 Python 类 特性 中 的 底层 魔法 ， 包括 @classmethod ~ @staticmethod 
~ @property ， 甚至 是 __slots__ 特性 。 





通过 定义 一 个 描述 器 ， 你 可 以 在 底层 捕获 核心 的 实例 操作 (get, set, delete)， 并 且 可 完全 自 
定义 它们 的 行为 。 这 是 一 个 强大 的 工具 ， 有 了 它 你 可 以 实现 很 多 高 级 功能 ， 并 且 它 也 是 
很 多 高 级 库 和 框架 中 的 重要 工具 之 一 。 














描述 器 的 一 个 比较 困惑 的 地 方 是 它 只 能 在 类 级 别 被 定义 ， 而 不 能 为 每 个 实例 单独 定义 。 因 
此 ， 下 面 的 代码 是 无 法 工作 的 : 





# Does NOT work 
class Point: 
def __init__(self, x, y): 
self.x = Integer('x') # No! Must be a class variable 
self.y = Integer('y') 
self.x = x 
self.y = y 





同时 ，| eet O 方法 实现 起 来 比 看 上 去 要 复杂 得 多 : 


# Descriptor attribute for an integer type-checked attribute 
class Integer: 


def __get__(self, instance, cls): 
if instance is None: 
return self 
else: 
return instance.__dict__[self.name] 














_set_() 看 上 去 有 点 复杂 的 原因 归结 于 实例 变量 和 类 变量 的 不 同 。 如 果 一 个 描述 器 被 当 
做 一 个 类 变量 来 访问 ， 那 么 instance 参数 被 设置 成 none o 这 种 情况 下 ， 标 准 做 法 就 是 





简单 的 返回 这 个 描述 器 本 身 即 可 (尽管 你 还 可 以 添加 其 他 的 自 定义 操作 )。 例 如 : 


>>> p = Point(2,3) 

>>> p.x # Calls Point.x.__get__(p, Point) 

2 

>>> Point.x # Calls Point.x.__get__(None, Point) 
<__main__.Integer object at @x100671890> 

>>> 








描述 器 通常 是 那些 使 用 到 装饰 器 或 元 类 的 大 型 框架 中 的 一 个 组 件 。 同 时 它们 的 使 用 也 被 隐 





藏 在 后 面 。 举 个 例子 ， 下 面 是 一 些 更 高 级 的 基于 描述 器 的 代码 ， 并 涉及 到 一 个 
at 





类 装 


ii 


# Descriptor for a type-checked attribute 
class Typed: 
def __init__(self, name, expected_type): 
self.name = name 
self.expected_type = expected_type 
def __get__(self, instance, cls): 
if instance is None: 
return self 
else: 
return instance. dict__[self.name] 


def __set__(self, instance, value): 
if not isinstance(value, self.expected_type): 
raise TypeError('Expected ' + str(self.expected_type) ) 
instance. __dict__[self.name] = value 
def _ delete (self, instance): 
del instance. dict_ [self.name] 


# Class decorator that applies it to selected attributes 
def typeassert(**kwargs): 
def decorate(cls): 
for name, expected _ type in kwargs.items(): 
# Attach a Typed descriptor to the class 
setattr(cls, name, Typed(name, expected_type) ) 
return cls 
return decorate 


# Example use 
@typeassert(name=str, shares=int, price=float) 
class Stock: 
def __init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 








最 后 要 指出 的 一 点 是 ， 如 果 你 只 是 想 简单 的 自 定 义 某 个 类 的 单个 属性 访问 的 话 就 不 用 去 写 
描述 器 了 。 这 种 情况 下 使 用 8.6 小 节 介 绍 的 property 技 术 会 更 加 容易 。 当 程 序 中 有 很 多 重 
复 代 码 的 时 候 描述 器 就 很 有 用 了 (比如 你 想 在 你 代码 的 很 多 地 方 使 用 描述 器 提供 的 功能 或 
者 将 它 作 为 一 个 函数 库 特 性 )。 





8.10 使 用 延迟 计算 属性 


问题 





你 想 将 一 个 只 读 属 性 定义 成 一 个 property， 并 且 只 在 访问 的 时 候 才 会 计算 结果 。 但 是 一 旦 
被 访问 后 ， 你 希望 结果 值 被 缓存 起 来 ， 不 用 每 次 都 去 计算 。 











定义 一 个 延迟 属性 的 一 种 高 效 方法 是 通过 使 用 一 个 描述 器 类 ， 如 下 所 示 : 


class lazyproperty: 
def __init__(self, func): 
self.func = func 


def __get__(self, instance, cls): 
if instance is None: 
return self 
else: 
value = self.func(instance) 
setattr(instance, self.func.__name__, value) 
return value 


你 需要 像 下 面 这 样 在 一 个 类 中 使 用 它 : 


import math 


class Circle: 
def __init__(self, radius): 
self.radius = radius 


@lazyproperty 
def area(self): 
print('Computing area’) 
return math.pi * self.radius ** 2 


@lazyproperty 

def perimeter(self): 
print( ‘Computing perimeter’ ) 
return 2 * math.pi * self.radius 





下 面 在 一 个 交互 环境 中 演示 它 的 使 用 : 


>>> c = Circle(4.@) 
>>> c.radius 

4.0 

>>> c.area 
Computing area 
5@.26548245743669 
>>> c.area 
5@.26548245743669 
>>> c.perimeter 
Computing perimeter 
25.132741228718345 
>>> c.perimeter 
25.132741228718345 
>>> 


仔细 观察 你 会 发 现 消息 Computing area 和 Computing perimeter 仅仅 出 现 一 次 。 


讨论 


很 多 时 候 ， 构 造 一 个 延迟 计算 属性 的 主要 目的 是 为 了 提升 性 能 。 例 如 ， 你 可 以 避免 计算 
这 些 属 性 值 ， 除 非 你 真 的 需要 它们 。 这 里 演示 的 方案 就 是 用 来 实现 这 样 的 效果 的 ， 只 不 
过 它 是 通过 以 非常 高 效 的 方式 使 用 描述 器 的 一 个 精妙 特性 来 达到 这 种 效果 的 。 











正如 在 其 他 小 节 ( 如 8.? 小 节 ) 所 讲 的 那样 ， 当 一 个 描述 器 被 放 入 一 个 类 的 定义 时 ， 每 次 访 
问 属 性 时 它 的 eet O . _set_() 和 _delete_() 方法 就 会 被 触发 。 不 过 ， 如 果 一 
个 描述 器 仅仅 只 定义 了 一 个 et O 方法 的 话 ， 它 比 通常 的 具有 更 弱 的 绑 定 。 特别 
地 ， 只 有 当 被 访问 属性 不 在 实例 底层 的 字典 中 时 __get_() 方法 才 会 被 触发 。 




















lazyproperty 类 利用 这 一 点 ， 使 用 __get_() 方法 在 实例 中 存储 计算 出 来 的 值 ， 这 个 实 
例 使 用 相同 的 名 字 作 为 它 的 property。 这样 一 来 ， 结 果 值 被 存储 在 实例 字典 中 并 且 以 后 就 
不 需要 再 去 计算 这 个 property 了 。 你 可 以 尝试 更 深入 的 例子 来 观察 结果 : 





>>> c = Circle(4.@) 

>>> # Get instance variables 
>>> vars(c) 

{'radius': 4.0} 


>>> # Compute area and observe variables afterward 
>>> c.area 

Computing area 

5@.26548245743669 

>>> vars(c) 

{'area': 50.26548245743669, ‘radius': 4.0} 


>>> # Notice access doesn't invoke property anymore 
>>> C.area 
5@.26548245743669 


>>> # Delete the variable and see property trigger again 
>>> del c.area 

>>> vars(c) 

{'radius': 4.0} 

>>> c.area 

Computing area 

5@.26548245743669 

>>> 





这 种 方案 有 一 个 小 缺陷 就 是 计算 出 的 值 被 创建 后 是 可 以 被 修改 的 。 例 如 : 


>>> C.area 
Computing area 
5@.26548245743669 
>>> C.area = 25 
>>> C.area 

25 

>>> 








如 果 你 担心 这 个 问题 ， 那 么 可 以 使 用 一 种 稍微 没 那 么 高 效 的 实现 ， 就 像 下 面 这 样 : 


def lazyproperty(func): 
name = '_lazy_' + func. __name__ 
@property 
def lazy(self): 
if hasattr(self, name): 
return getattr(self, name) 
else: 
value = func(self) 
setattr(self, name, value) 
return value 
return lazy 


如 果 你 使 用 这 个 版 本 ， 就 会 发 现 现在 修改 操作 已 经 不 被 多 许 了 : 


>>> c = Ciřcle(4:0) 
>>> c.area 
Computing area 
5@.26548245743669 
>>> c.area 
5@.26548245743669 
>>> C.area = 25 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: can't set attribute 














>>> 
然而 ， 这 种 方案 有 一 个 缺点 就 是 所 有 get 操 作 都 必须 被 定向 到 属性 的 getter 函数 上 去 。 





这 个 跟 之 前 简单 的 在 实例 字典 中 查找 值 的 方案 相 比 效率 要 低 一 点 。 




















如 有 果 想 获取 更 多 关于 


property 和 可 管理 属性 的 信息 ， 可 以 参考 8.6 小 节 。 而 描述 器 的 相关 内 容 可 以 在 8.9 小 节 找 





到 。 
8.11 简化 数据 结构 的 初始 化 


问题 


你 写 了 很 多 仅仅 用 作 数 据 结 构 的 类 ， 不 想 写 太 多 烦人 的 init oO 函数 


解决 方案 


可 以 在 一 个 基 类 中 写 一 个 公用 的 | _init__() | 函数: 


import math 


class Structurel: 
# Class variable that specifies expected fields 
_fields = [] 


def __init__(self, *args): 
if len(args) != len(self._fields): 
raise TypeError('Expected {} arguments'.format(len(self. fields) )) 
# Set the arguments 
for name, value in zip(self._ fields, args): 
setattr(self, name, value) 


然后 使 你 的 类 继承 自 这 个 基 类 : 


# Example class definitions 
class Stock(Structure1): 
_fields = ['name', '‘shares', 'price'] 


class Point(Structure1): 
_fields = ['x', ‘y'] 


class Circle(Structure1): 
_fields = ['radius'] 


def area(self): 
return math.pi * self.radius ** 2 


使 用 这 些 类 的 示例 : 


>>> S = Stock('ACME', 50, 91.1) 
>>> p = Point(2, 3) 
>>> c = Circle(4.5) 
>>> S2 = Stock('ACME', 50) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "“structure.py", line 6, in _init__ 

raise TypeError('Expected {} arguments'.format(len(self._ fields) )) 

TypeError: Expected 3 arguments 





如 果 还 想 支 持 关 键 字 参 数 ， 可 以 将 关键 字 参 数 设置 为 实例 属性 : 


class Structure2: 
_fields = [] 


def __init__(self, *args, **kwargs): 
if len(args) > len(self._fields): 
raise TypeError('Expected {} arguments'.format(len(self. fields) )) 


# Set all of the positional arguments 
for name, value in zip(self._ fields, args): 
setattr(self, name, value) 


# Set the remaining keyword arguments 
for name in self. _fields[len(args):]: 
setattr(self, name, kwargs.pop(name) ) 


# Check for any remaining unknown arguments 
if kwargs: 
raise TypeError('Invalid argument(s): {}'.format(','.join(kwargs) ) ) 
# Example use 
if name _ == ' main _': 
class Stock(Structure2): 
_fields = ['name', 'shares', 'price'] 


s1 = Stock('ACME', 50, 91.1) 
s2 = Stock('ACME', 50, price=91.1) 
s3 = Stock('ACME', shares=5@, price=91.1) 


# s3 = Stock('ACME', shares=5@, price=91.1, aa=1) 


各 
ap 


BITE fields 中 的 名 称 加 入 到 属性 中 去 : 


class Structure3: 
# Class variable that specifies expected fields 
_fields = [] 


def __init__(self, *args, **kwargs): 
if len(args) != len(self. fields): 
raise TypeError('Expected {} arguments'.format(len(self._ fields) )) 


# Set the arguments 
for name, value in zip(self._ fields, args): 
setattr(self, name, value) 


# Set the additional arguments (if any) 
extra_args = kwargs.keys() - self. fields 
for name in extra_args: 

setattr(self, name, kwargs.pop(name) ) 


if kwargs: 
raise TypeError('Duplicate values for {}'.format(','.join(kwargs) ) ) 


# Example use 
if name == ' main _': 
class Stock(Structure3): 


_fields = ['name', ‘shares’, 'price'] 


s1 
s2 


Stock('ACME', 50, 91.1) 
Stock('ACME', 50, 91.1, date='8/2/2012') 


当 你 需要 使 用 大 量 很 小 的 数据 结构 类 的 时 候 ， 相 比 手工 一 个 个 定义 init O 方法 而 
已 ， 使 用 这 种 方式 可 以 大 大 简化 代码 。 





在 上 面 的 实现 中 我 们 使 用 了 setattr() 函数 类 设置 属性 值 ， 你 可 能 不 想 用 这 种 方式 ， 而 
是 想 直 接 更 新 实例 字典 ， 就 像 下 面 这 样 : 





class Structure: 
# Class variable that specifies expected fields 
_fields= [] 
def __init__(self, *args): 
if len(args) != len(self._fields): 
raise TypeError('Expected {} arguments'.format(len(self. fields) )) 


# Set the arguments (alternate) 
self.__dict__.update(zip(self._fields,args)) 


尽管 这 也 可 以 正常 工作 ， 但 是 当 定义 子 类 的 时 候 问 题 就 来 了 。 当 一 个 子 类 定义 了 
slots ”或 者 通过 property( 或 描述 器 ) 来 包装 茶 个 属性 ， 那 么 直接 访问 实例 字典 就 不 起 
作用 了 。 我 们 上 面 使 用 setattr() 会 显得 更 通用 些 ， 因 为 它 也 适用 于 子 类 情况 。 











这 种 方法 唯一 不 好 的 地 方 就 是 对 某 些 IDE 而 已 ， 在 显示 帮助 函数 时 可 能 不 太 友 好 。 比 如 : 


>>> help(Stock) 
Help on class Stock in module __main_: 
class Stock(Structure) 


| Methods inherited from Structure: 


| 
| _ init__(self, *args, **kwargs) 
| 


>>> 


可 以 参考 9.16 小 节 来 强人 





fel 


TE __init_() 方法 中 指定 参数 的 类 型 签名 。 


8.12 定义 接口 或 者 抽象 基 类 
问题 


你 想 定义 一 个 接口 或 抽象 类 ， 并 且 通 过 执行 类 型 检查 来 确保 子 类 实现 了 茶 些 特定 的 方法 


使 用 abc 模块 可 以 很 轻松 的 定义 抽象 基 类 : 


from abc import ABCMeta，abstractmethod 


class IStream(metaclass=ABCMeta): 
@abstractmethod 
def read(self, maxbytes=-1): 
pass 


@abstractmethod 
def write(self, data): 
pass 





抽象 类 的 一 个 特点 是 它 不 能 直接 被 实例 化 ， 比 如 你 想像 下 面 这 样 做 是 不 行 的 : 


a = IStream() # TypeError: Can't instantiate abstract class 
# IStream with abstract methods read, write 


抽象 类 的 目的 就 是 让 别 的 类 继承 它 并 实现 特定 的 抽象 方法 : 


class SocketStream(IStream): 
def read(self, maxbytes=-1): 
pass 


def write(self, data): 
pass 








抽象 基 类 的 一 个 主要 用 途 是 在 代码 中 检查 某 些 类 是 否 为 特定 类 型 ， 实 现 了 特定 接口 : 


def serialize(obj, stream): 
if not isinstance(stream, IStream): 
raise TypeError('Expected an IStream' ) 
pass 


除了 继承 这 种 方式 外 ， 还 可 以 通过 注册 方式 来 让 某 个 类 实现 抽象 基 类 : 


import io 


# Register the built-in I/O classes as supporting our interface 
IStream.register(io.1I0Base) 


# Open a normal file and type check 
f = open('foo.txt') 
isinstance(f, IStream) # Returns True 


is, 
a 


@abstractmethod 还 能 注解 静态 方法 、 类 方法 和 properties o 你 只 需 保 证 这 个 注解 紧 靠 
在 函数 定义 前 即 可 : 


class A(metaclass=ABCMeta): 
@property 
@abstractmethod 
def name(self): 
pass 


@name.setter 

@abstractmethod 

def name(self, value): 
pass 


@classmethod 

@abstractmethod 

def method1(cls): 
pass 


@staticmethod 

@abstractmethod 

def method2(): 
pass 


标准 库 中 有 很 多 用 到 抽象 基 类 的 地 方 。 collections 模块 定义 了 很 多 跟 容器 和 迭代 器 ( 序 
列 、 映 射 、 集 合 等 ) 有 关 的 抽象 基 类 。 numbers 库 定义 了 跟 数 字 对 象 (整数 、 浮 点 数 、 有 到 
数 等 ) 有 关 的 基 类 。 io 库 定 义 了 很 多 跟 MO 操 作 相 关 的 基 类 。 























u 


你 可 以 使 用 预定 义 的 抽象 类 来 执行 更 通用 的 类 型 检查 ， 例 如 : 


import collections 
# Check if x is a sequence 


if isinstance(x, collections.Sequence): 


# Check if x is iterable 
if isinstance(x, collections.Iterable): 


# Check if x has a size 
if isinstance(x, collections.Sized): 


# Check if x is a mapping 
if isinstance(x, collections.Mapping): 


尽管 ABCs 可 以 让 我 们 很 方便 的 做 类 型 检查 ， 但 是 我 们 在 代码 中 最 好 不 要 过 多 的 使 用 它 。 
因为 Python 的 本 质 是 一 门 动态 编程 语言 ， 其 目的 就 是 给 你 更 多 灵活 性 ， 强制 类 型 检查 或 
让 你 代码 变 得 更 复杂 ， 这 样 做 无 异 于 舍 本 求 末 。 




















8.13 实现 数据 模型 的 类 型 约束 


问题 





你 想 定义 某 些 在 属性 赋值 上 面 有 限制 的 数据 结构 。 





在 这 个 问题 中 ， 你 需要 在 对 某 些 实例 属性 赋值 时 进行 检查 。 所 以 你 要 自 定 义 属 性 赋值 函 
数 ， 这 种 情况 下 最 好 使 用 描述 器 。 








下 面 的 代码 使 用 描述 器 实现 了 一 个 系统 类 型 和 赋值 验证 框架 : 





# Base class. Uses a descriptor to set a value 
class Descriptor: 
def __init__(self, name=None, **opts): 
self.name = name 
for key, value in opts.items(): 
setattr(self, key, value) 


def __set__(self, instance, value): 
instance. __dict__[self.name] = value 


# Descriptor for enforcing types 
class Typed(Descriptor): 
expected_type = type(None) 


def __set__(self, instance, value): 
if not isinstance(value, self.expected_type): 
raise TypeError('expected ' + str(self.expected_type) ) 
super().__set__(instance, value) 


# Descriptor for enforcing values 
class Unsigned(Descriptor): 
def __set__(self, instance, value): 
if value < @: 
raise ValueError('Expected >= @') 
super().__set__(instance, value) 


class MaxSized(Descriptor): 
def __init__(self, name=None, **opts): 
if ‘size’ not in opts: 
raise TypeError('missing size option') 
super().__init__(name, **opts) 


def __set__(self, instance, value): 
if len(value) >= self.size: 


raise ValueError('size must be < + str(self.size)) 


super().__set__(instance, value) 





这 些 类 就 是 你 要 创建 的 数据 模型 或 类 型 系统 的 基础 构建 模块 。 下面 就 是 我 们 实际 定义 的 
各 种 不 同 的 数据 类 型 : 


class Integer(Typed): 
expected_type = int 


class UnsignedInteger(Integer, Unsigned): 
pass 


class Float(Typed): 
expected_type = float 


class UnsignedFloat(Float, Unsigned): 
pass 


class String(Typed): 
expected_type = str 


class SizedString(String, MaxSized): 
pass 


然后 使 用 这 些 自 定义 数据 类 型 ， 我 们 定义 一 个 类 : 


class Stock: 
# Specify constraints 
name = SizedString('name', size=8) 
shares = UnsignedInteger('shares') 
price = UnsignedFloat('price') 


def __init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


然后 测试 这 个 类 的 属性 赋值 约束 ， 可 发 现 对 某 些 属性 的 赋值 违法 了 约束 是 不 合法 的 : 








>>> S.name 
"ACME" 
>>> s.shares = 75 
>>> s.shares = -10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "“example.py", line 17, in _set__ 
super().__set__(instance, value) 
File "example.py", line 23, in __set__ 
raise ValueError('Expected >= 6 ') 
ValueError: Expected >= @ 
>>> S.price = ‘a lot’ 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in _set__ 
raise TypeError('expected ' + str(self.expected_type) ) 
TypeError: expected <class 'float'> 
>>> s.name = 'ABRACADABRA' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "“example.py", line 17, in _set__ 
super().__set__(instance, value) 
File "example.py", line 35, in _set__ 


raise ValueError('size must be < + str(self.size)) 
ValueError: size must be < 8 


>>> 





还 有 一 些 技术 可 以 简化 上 面 的 代码 ， 其 中 一 种 是 使 用 类 装饰 器 : 


# Class decorator to apply constraints 
def check_attributes(**kwargs): 
def decorate(cls): 
for key, value in kwargs.items(): 
if isinstance(value, Descriptor): 
value.name = key 
setattr(cls, key, value) 
else: 
setattr(cls, key, value(key) ) 
return cls 


return decorate 


# Example 
@check_attributes(name=SizedString(size=8), 
shares=UnsignediInteger, 
price=UnsignedFloat) 
class Stock: 
def __init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


HIA Ke EAA TOR : 


# A metaclass that applies checking 
class checkedmeta(type): 
def __new__(cls, clsname, bases, methods): 
# Attach attribute names to the descriptors 
for key, value in methods.items(): 
if isinstance(value, Descriptor): 
value.name = key 
return type.__new__(cls, clsname, bases, methods) 


# Example 

class Stock2(metaclass=checkedmeta) : 
name = SizedString(size=8) 
shares = UnsignedInteger() 
price = UnsignedFloat() 


def __init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


讨论 





本 节 使 用 了 很 多 高 级 技术 ， 包 括 描述 器 、 混 入 类 、 supro 的 使 用 、 类 装饰 器 和 元 类 。 
不 可 能 在 这 里 一 一 详细 展开 来 讲 ， 但 是 可 以 在 8.9、8.18、9.19 小 节 找 到 更 多 例子 。 但 
是 ， 我 在 这 里 还 是 要 提 一 下 几 个 需要 注意 的 点 。 


首先 ， 在 Descriptor 基 类 中 你 会 看 到 有 个 __set__() 方法 ， 却 没有 相应 的 _get_() 方 
法 。 如 果 一 个 描述 仅仅 是 从 底层 实例 字典 中 获取 某 个 属性 值 的 话 ， 那 么 没 必要 去 定义 
_get_() 方法 。 








所 有 描述 器 类 都 是 基于 混入 类 来 实现 的 。 比如 Unsigned 和 Maxsized 要 跟 其 他 继承 自 
Typed 类 混入 。 这 里 利用 多 继承 来 实现 相应 的 功能 。 














混入 类 的 一 个 比较 难 理解 的 地 方 是 ， 调 用 supero 函数 时 ， 你 并 不 知道 究竟 要 调用 哪个 
具体 类 。 你 需要 跟 其 他 类 结合 后 才能 正确 的 使 用 ， 也 就 是 必须 合作 才能 产生 效果 。 

















使 用 类 装饰 器 和 元 类 通常 可 以 简化 代码 。 上 面 两 个 例子 中 你 会 发 现 你 只 需要 输入 一 次 属性 
名 即 可 了 。 


# Normal 

class Point: 
x = Integer('x') 
y = Integer('y') 


# MetacLlass 

class Point(metaclass=checkedmeta) : 
x = Integer() 
y = Integer() 




















所 有 方法 中 ， 类 装饰 器 方案 应 该 是 最 灵活 和 最 高 明 的 。 首 先 ， 它 并 不 依赖 任何 其 他 新 的 
技术 ， 比 如 元 类 。 其 次 ， 闭 饰 器 可 以 很 容易 的 添加 或 删除 。 








最 后 ， 装 饰 器 还 能 作为 混入 类 的 蔡 代 技术 来 实现 同样 的 效果 ; 


# Decorator for applying type checking 
def Typed(expected_type, cls=None): 
if cls is None: 
return lambda cls: Typed(expected_type, cls) 
super_set = cls.__set__ 


def __set__(self, instance, value): 
if not isinstance(value, expected_type): 


raise TypeError('expected + str(expected_type) ) 


super_set(self, instance, value) 


cls. set = __set 
return cls 


# Decorator for unsigned values 
def Unsigned(cls): 
super_set = cls.__set__ 


def __set__(self, instance, value): 
if value < ð: 
raise ValueError('Expected >= 6 ') 
super_set(self, instance, value) 


cls. set = __set 
return cls 


# Decorator for allowing sized values 
def MaxSized(cls): 
super_init = cls.__init__ 


def __init__(self, name=None, **opts): 
if ‘size’ not in opts: 
raise TypeError('missing size option') 
super_init(self, name, **opts) 


clss init = _init__ 
super_set = cls.__set__ 


def __set__(self, instance, value): 
if len(value) >= self.size: 


raise ValueError('size must be < + str(self.size)) 


super_set(self, instance, value) 


cls.__set__ = set 


return cls 


# Specialized descriptors 

@Typed(int) 

class Integer(Descriptor): 
pass 


@Unsigned 
class UnsignedInteger (Integer): 
pass 


@Typed(float) 
class Float(Descriptor): 
pass 


@Unsigned 
class UnsignedFloat(Float): 
pass 


@Typed(str) 
class String(Descriptor): 
pass 


@MaxSized 
class SizedString(String): 
pass 


这 种 方式 定义 的 类 跟 之 前 的 效果 一 样 ， 而 且 执行 速度 会 更 快 。 设置 一 个 简单 的 类 型 属性 
的 值 ， 装 饰 器 方式 要 比 之 前 的 混入 类 的 方式 几乎 快 100%。 现在 你 应 该 庆幸 自己 读 完 了 本 
节 全 部 内 容 了 吧 ? ^_^ 














8.14 实现 自 定 义 容 器 


问题 


你 想 实 现 一 个 自 定 义 的 类 来 模拟 内 置 的 容器 类 功能 ， 比 如 列表 和 字典 。 但 是 你 不 确定 到 底 
要 实现 哪些 方法 。 





collections 定义 了 很 多 抽象 基 类 ， 当 你 想 自 定义 容器 类 的 时 候 它 们 会 非常 有 用 。 比如 你 
想 让 你 的 类 支持 迭代 ， 那 就 让 你 的 类 继承 collections.Iterable ENEJ: 


import collections 
class A(collections.Iterable): 
pass 


不 过 你 需要 实现 collections.Iterable 所 有 的 抽象 方法 ， 否则 会 报错 : 


>>> a = A() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class A with abstract methods __iter__ 


>>> 


你 只 要 实现 iter O 方法 就 不 会 报错 了 (参考 4.2 和 4.7 小 节 )。 
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你 可 以 先 试 着 去 实例 化 一 个 对 象 ， 在 错误 提示 中 可 以 找到 需要 实现 哪些 方法 : 


>>> import collections 
>>> collections.Sequence() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class Sequence with abstract methods \ 


__getitem__, __len 


>>> 


下 面 是 一 个 简单 的 示例 ， 继 承 自 上 面 Sequence 抽 象 类 ， 并 且 实 现 元 素 按照 顺序 存储 : 


class SortedItems(collections.Sequence): 
def __init__(self, initial=None): 
self._items = sorted(initial) if initial is not None else [] 


# Required sequence methods 
def __getitem__(self, index): 
return self. _items[index] 


def __len__(self): 
return len(self._items) 


# Method for adding an item in the right Location 
def add(self, item): 
bisect.insort(self. items, item) 


items = SortedItems([5, 1, 3]) 
print(list(items) ) 
print(items[Q], items[-1]) 
items.add(2) 
print(list(items) ) 


可 以 看 到 ，Sortedltems 跟 普通 的 序列 没什么 两 样 ， 支 持 所 有 常用 操作 ， 包 括 索 引 、 
代 、 包 含 判 断 ， 甚 至 是 切片 操作 。 





这 里 面 使 用 到 了 bisect 模块 ， 它 是 一 个 在 排序 列表 中 插入 元 素 的 高 效 方式 。 可 以 保证 元 
素 插 入 后 还 保持 顺序 。 


使 用 collections 中 的 抽象 基 类 可 以 确保 你 自 定义 的 容 d a a 并 且 还 
能 简化 类 型 检查 。 你 的 自 定义 容器 会 满足 大 部 分 类 型 检查 需要 ， 如 下 所 示 : 


>>> items = SortedItems() 

>>> import collections 

>>> isinstance(items, collections.Iterable) 
True 

>>> isinstance(items, collections.Sequence) 
True 

>>> isinstance(items, collections.Container) 
True 

>>> isinstance(items, collections.Sized) 
True 

>>> isinstance(items, collections.Mapping) 
False 

>>> 


collections 中 很 多 抽象 类 会 为 一 





些 常见 容器 操作 提供 默认 的 实现 ， 这 样 一 来 你 只 


需要 实 


现 那些 你 最 感 兴趣 的 方法 即 可 。 假 设 你 的 类 继承 自 collections.Mutablesequence ， 如 下 : 


class Items(collections.MutableSequence): 


def __init__ 


self._items = 


(self, initial=None): 
list(initial) if initial is not None else [] 


# Required sequence methods 


def 
print('Getting: 
return self. 


def _ 
print('Setting:' 
self. 


setitem__ 
_items[index] 


def _ 
print( ‘Deleting: 
del self. 


def 
print( ‘Inserting: ' 
self. 


def __len__(self): 
print('Len') 
return len(self. 


如 果 你 创建 tems 的 实例 ， 你 会 


remove()、count() 等 


_items[index] 


_items) 


__getitem__(self, index): 
', index) 
_items[ index] 


(self, index, value): 
» index, value) 
= value 


delitem__(self, index): 
", index) 


insert(self, index, value): 
, index, value) 
_items.insert(index, value) 


发 现 它 支 持 几乎 所 有 的 核心 列表 方法 (如 append()、 


)。 下 面 是 使 用 演示 : 


>>> a = Items([1, 2, 3]) 
>>> len(a) 

Len 

3 

>>> a.append(4) 

Len 

Inserting: 3 4 

>>> a.append(2) 

Len 

Inserting: 4 2 

>>> a.count(2) 

Getting: 6 

Getting: 
Getting: 
Getting: 
Getting: 


wm 人 w NP 


Getting: 
2 

>>> a.remove(3) 
Getting: 6 
Getting: 1 
Getting: 2 
Deleting: 2 

>>> 


本 小 节 只 是 对 Python 抽象 类 功能 的 抛砖引玉 。 numbers 模块 提供 了 一 个 类 似 的 跟 整 数 类 
型 相关 的 抽象 类 型 集合 。 可 以 参考 8.12 小 节 来 构造 更 多 自 定 义 抽象 基 类 。 


8.15 属性 的 代理 访问 


问题 

















你 想 将 茶 个 实例 的 属性 访问 代理 到 内 部 另 一 个 实例 中 去 ， 目 的 可 能 是 作为 继承 的 一 个 蔡 代 
方法 或 者 实现 代理 模式 。 



































简单 来 说 ， 代 理 是 一 种 编程 模式 ， 它 将 茶 个 操作 转移 给 另外 一 个 对 象 来 实现 。 最 简单 的 
形式 可 能 是 像 下 面 这样 : 








class A: 
def spam(self, x): 
pass 


def foo(self): 


pass 


class B1: 
"un "简单 的 代理 " mu 





def __init__(self): 
self._a = A() 


def spam(self, x): 
# Delegate to the internal self._a instance 
return self._a.spam(x) 


def foo(self): 
# Delegate to the internal self._a instance 
return self._a.foo() 


def bar(self): 
pass 




















如 果 仅 仪 就 两 个 方法 需要 代理 ， 那 么 像 这 样 写 就 足够 了 。 但 是 ， 如 果 有 大 量 的 方法 需要 代 
里 ， 那么 使 用 _getattr_() 方法 或 许 或 更 好 些 : 

















class B2: 


""" 使 用 __getattr__ 的 代理 ,代理 方 法 比较 多 时 候 """ 




















def __init__(self): 
self._a = A() 


def bar(self): 
pass 


# Expose all of the methods defined on class A 
def __getattr__(self, name): 
"" "这 个 方法 在 访问 的 attribute 不 存在 的 时 候 被 调用 
the _ getattr () method is actually a fallback method 
that only gets called when an attribute is not found""" 























return getattr(self._a, name) 


”getattr ”方法 是 在 访问 attribute 不 存在 的 时 候 被 调用 ， 使 用 演示 : 


b = B() 
b.bar() # Calls B.bar() (exists on B) 
b.spam(42) # Calls B.__getattr__('spam') and delegates to A.spam 



































另外 一 个 代理 例子 是 实现 代理 模式 ， 例 如 : 








# A proxy class that wraps around another object, but 
# exposes its public attributes 
class Proxy: 
def __init__(self, obj): 
self. obj = obj 


# Delegate attribute Lookup to internal obj 
def __getattr__(self, name): 
print('getattr:', name) 
return getattr(self._obj, name) 


# Delegate attribute assignment 
def __setattr__(self, name, value): 
if name.startswith('_'): 
super().__setattr__(name, value) 
else: 
print('setattr:', name, value) 
setattr(self._obj, name, value) 


# Delegate attribute deletion 
def __delattr__(self, name): 
if name.startswith('_'): 
super().__delattr__(name) 
else: 
print('delattr:', name) 
delattr(self. obj, name) 


























使 用 这 个 代理 类 时 ， 你 只 需要 用 它 来 包装 下 其 他 类 即 可 : 





class Spam: 
def __init__(self, x): 
self.x = x 


def bar(self, y): 
print('Spam.bar:', self.x, y) 


# Create an instance 

s = Spam(2) 

# Create a proxy around it 

p = Proxy(s) 

# Access the proxy 

print(p.x) # Outputs 2 

p.bar(3) # Outputs "Spam.bar: 2 3" 
p.ex = 37 # Changes s.x to 37 





I AE URED, PRAT DAA AS TA) A ve RE 


读 访 问 等 )。 


讨论 














类 


行 


为 (比如 加 入 日 志 功 能 


代理 类 有 时 候 可 以 作为 继承 的 替代 方案 。 例 如 ， 一 个 简单 的 继承 如 下 : 





class A: 
def spam(self, x): 
print('A.spam', x) 
def foo(self): 
print('A.foo') 


class B(A): 
def spam(self, x): 
print('B.spam' ) 
super().spam(x) 
def bar(self): 
print('B.bar') 














使 用 代理 的 话 ， 就 是 下 面 这 样 : 





class A: 
def spam(self, x): 
print('A.spam', x) 
def foo(self): 
print('A.foo') 


class B: 

def __init__(self): 
self._a = A() 

def spam(self, x): 
print('B.spam', x) 
self._a.spam(x) 

def bar(self): 
print('B.bar') 

def __getattr__(self, name): 
return getattr(self._a, name) 
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当 实 现代 理 模 式 时 ， 还 有 些 细节 需要 注意 。 
调用 。 因 此 ， 如 果 代 理 类 实例 本 身 有 这 个 属性 的 话 ， 那 么 不 会 








只 有 在 属性 不 存在 时 才 会 
触发 这 个 方法 的 。 另外 ， 











首先 ， _getattr _() 实际 是 一 个 后 备 方法 ， 














setattr () 和 





__delattr__() 需要 额外 的 魔法 来 区 分 代理 实 


例 和 被 代理 实例 _obj 的 属性 。 一 个 通常 的 约定 是 只 代理 那些 不 以 下 划 线 _ 开头 的 属性 
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的 公共 属性 )。 








还 有 一 点 需要 注意 的 是 ， _getattr _() 对 于 大 部 分 以 双 下 划 线 (_) 开 始 和 结尾 的 属性 并 不 
适用 。 比 如， 考虑 如 下 的 类 : 


class ListLike: 
"""”_getattr__ 对 于 双 下 划 线 开 始 和 结尾 的 方法 是 不 能 
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def __init__(self): 
self._items = [] 


def __getattr__(self, name): 
return getattr(self._items, name) 


如 果 是 创建 一 个 ListLike 对 象 ， 会 发 现 它 支持 普通 的 列表 方法 ， 如 append() 和 insert()， 但 
是 却 不 支持 len()、 元 素 查 找 等 。 例 如 : 


>>> = ListLike() 

-append(2) 

-insert(@, 1) 

>>> a.sort() 

>>> len(a) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: object of type 'ListLike' has no len() 
>>> a[6] 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


>>> 


a 
a 
>>> a 
a 


TypeError: ‘ListLike' object does not support indexing 
>>> 























为 了 让 它 文 持 这 些 方法 ， 你 必须 手动 的 实现 这 些 方法 代理 : 


class ListLike: 


""" getattr__ 对 于 双 下 划 线 开始 和 结尾 
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def __init__(self): 
self._items = [] 


def __getattr__(self, name): 
return getattr(self._items, name) 


# Added special methods to support certain List operations 
def __len__(self): 
return len(self._items) 


def __getitem__(self, index): 
return self. _items[index] 


def __setitem__(self, index, value): 
self. _items[index] = value 


def _ delitem (self, index): 
del self. items[index] 




















11.8 小 节 还 有 一 个 在 远程 方法 调用 环境 中 使 用 代理 的 例子 。 








8.16 在 类 中 定义 多 个 构造 器 


问题 
你 想 实现 一 个 类 ， 除 了 使 用 init o 方法 外 ， 还 有 其 他 方式 可 以 初始 化 它 。 
解决 方案 


为 了 实现 多 个 构造 器 ， 你 需要 使 用 到 类 方法 。 例 如 : 


import time 


class Date: 
nun 方法 一 : 使 | 类 方法 " nu 
# Primary constructor 




















def __init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


# Alternate constructor 
@classmethod 
def today(cls): 
t = time.localtime() 
return cls(t.tm_year, t.tm_mon, t.tm_mday) 





直接 调用 类 方法 即 可 ， 下 面 是 使 用 示例 : 


a = Date(2012, 12, 21) # Primary 
b = Date.today() # Alternate 


讨论 


类 方法 的 一 个 主要 用 途 就 是 定义 多 个 构造 器 。 它 接受 一 个 class 作为 第 一 个 参数 (cls)。 
你 应 该 注意 到 了 这 个 类 被 用 来 创建 并 返回 最 终 的 实例 。 在 继承 时 也 能 工作 的 很 好 : 





class NewDate(Date): 
pass 


c = Date.today() # Creates an instance of Date (cls=Date) 
d = NewDate.today() # Creates an instance of NewDate (cls=NewDate) 


8.17 创建 不 调用 init 方 法 的 实例 
问题 


你 想 创 建 一 个 实例 ， 但 是 希望 绕 过 执行 init O 方法 。 


可 以 通过 nen O 方法 创建 一 个 未 初始 化 的 实例 。 例 如 考虑 如 下 这 个 类 : 


class Date: 
def __init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 








下 面 演示 如 何不 调用 __init__() 方法 来 创建 这 个 Date 实 例 : 


>>> d = Date.__new__(Date) 
>>> d 
<__main__.Date object at 0x1006716d0> 
>>> d.year 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'Date' object has no attribute ‘year' 
>>> 


结果 可 以 看 到 ， 这 个 Date 实 例 的 属性 year 还 不 存在 ， 所 以 你 需要 手动 初始 化 : 


>>> data = {'year':2012, 'month':8, 'day':29} 
>>> for key, value in data.items(): 
setattr(d, key, value) 


>>> d.year 
2012 

>>> d.month 
8 

>>> 


讨论 


当 我 们 在 反 序列 对 象 或 者 实现 茶 个 类 方法 构造 函数 时 需要 绕 过 init O 方法 来 创建 对 
象 。 例 如 ， 对 于 上 面 的 Date 来 来 讲 ， 有 时 候 你 可 能 会 像 下 面 这 样 定义 一 个 新 的 构造 函数 


today() : 


from time import localtime 


class Date: 
def __init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


@classmethod 

def today(cls): 
d = cls.__new__(cls) 
t = localtime() 
d.year = t.tm_year 
d.month = t.tm_mon 
d.day = t.tm_mday 
return d 


同样 ， 在 你 反 序 列 化 JSON 数 据 时 产生 一 个 如 下 的 字典 对 象 : 


data = { 'year': 2012, 'month': 8, ‘day': 29 } 


如 果 你 想 将 它 转换 成 一 个 Date 类 型 实例 ， 可 以 使 用 上 面 的 技术 。 





当 你 通过 这 种 非常 规 方式 来 创建 实例 的 时 候 ， 最 好 不 要 直接 去 访问 底层 实例 字典 ， 除 非 你 
真 的 清楚 所 有 细节 。 否则 的 话 ， 如 果 这 个 类 使 用 了 __slots_ ~ properties, descriptors 
或 其 他 高 级 技术 的 时 候 代 码 就 会 失效 。 而 这 时 候 使 用 setattr() 方法 会 让 你 的 代码 变 得 
更 加 通用 。 


8.18 利用 Mixins 扩 展 类 功能 


问题 





你 有 很 多 有 用 的 方法 ， 想 使 用 它们 来 扩展 其 他 类 的 功能 。 但 是 这 些 类 并 没有 任何 继承 的 关 
系 。 因 此 你 不 能 简单 的 将 这 些 方法 放 入 一 个 基 类 ， 然 后 被 其 他 类 继承 。 








通常 当 你 想 自 定义 类 的 时 候 会 磁 上 这 些 问题 。 可 能 是 某 个 库 提 供 了 一 些 基 础 类 ， 你 可 以 
利用 它们 来 构造 你 自己 的 类 。 


假设 你 想 扩展 映射 对 象 ， 给 它们 添加 日 志 、 唯 一 性 设置 、 类 型 检查 等 等 功能 。 下 面 是 一 些 
混入 类 








class LoggedMappingMixin: 


Add logging to get/set/delete operations for debugging. 


_ slots = () # 混入 类 都 没有 实例 变量 




















因为 直接 实例 化 混入 类 没有 任何 意义 
































def __getitem__(self, key): 
print('Getting ' + str(key)) 
return super().__getitem__(key) 


def __setitem__(self, key, value): 
print('Setting {} = {!r}'.format(key, value) ) 
return super().__setitem__(key, value) 


def __delitem__(self, key): 
print('Deleting ' + str(key)) 
return super().__delitem__ (key) 


class SetOnceMappingMixin: 


Only allow a key to be set once. 


-slöts -s () 


def __setitem__(self, key, value): 
if key in self: 
raise KeyError(str(key) + ' already set') 
return super().__setitem__ (key, value) 


class StringKeysMappingMixin: 


Restrict keys to strings only 


_ slots = () 


def __setitem__(self, key, value): 
if not isinstance(key, str): 
raise TypeError('keys must be strings') 
return super().__setitem__ (key, value) 


这 些 类 单独 使 用 起 来 没有 任何 意义 ， 事 实 上 如 果 你 去 实例 化 任何 一 个 类 ， 除 了 产生 异常 外 
没 任何 作用 。 它们 是 用 来 通过 多 继承 来 和 其 他 映射 对 象 混入 使 用 的 。 例 如 : 





class LoggedDict(LoggedMappingMixin, dict): 
pass 


d = LoggedDict() 
d['x'] = 23 
print(d['x']) 
del d['x'] 


from collections import defaultdict 


class SetOnceDefaultDict(SetOnceMappingMixin, defaultdict): 
pass 


d = SetOnceDefaultDict(list) 
d['x'].append(2) 

d['x'].append(3) 

# d['x'] = 23 # KeyError: 'x already set' 


这 个 例子 中 ， 可 以 看 到 混入 类 跟 其 他 已 存在 的 类 (比如 dict、defaultdict 和 OrderedDict) 结 
合 起 来 使 用 ， 一 个 接 一 个 。 结 合 后 就 能 发 挥 正常 功效 了 。 


讨论 


混入 类 在 标志 库 中 很 多 地 方 都 出 现 过 ， 通 常 都 是 用 来 像 上 面 那样 扩展 某 些 类 的 功能 。 它 
们 也 是 多 继承 的 一 个 主要 用 途 。 比 如 ， 当 你 编写 网 络 代 码 时 候 ， 你 会 经 常 使 用 
socketserver 模块 中 的 ThreadingMixin 来 给 其 他 网 络 相关 类 增加 多 线程 支持 。 例 如 ， 下 
面 是 一 个 多 线程 的 XML-RPC 服 务 : 


from xmlrpc.server import SimpleXMLRPCServer 

from socketserver import ThreadingMixIn 

class ThreadedXMLRPCServer(ThreadingMixIn, SimpleXMLRPCServer): 
pass 


同时 在 一 些 大 型 库 和 框架 中 也 会 发 现 混入 类 的 使 用 ， 用 途 同样 是 增强 已 存在 的 类 的 功能 和 
一 些 可 选 特征 。 











对 于 混入 类 ， 有 几 点 需要 记 住 。 首 先是 ， 混 入 类 不 能 直接 被 实例 化 使 有 用。 其次， 混入 类 
没有 自己 的 状态 信息 ， 也 就 是 说 它们 并 没有 定义 init O 方法 ， 并 且 没 有 实例 属性 。 
这 也 是 为 什么 我 们 在 上 面 明 确定 义 了 _slots_ = () o 














还 有 一 种 实现 混入 类 的 方式 就 是 使 用 类 装饰 器 ， 如 下 所 示 : 


def LoggedMapping(cls): 
eee a 


cls_getitem = cls. getitem _ 























cls_setitem = cls. setitem _ 
cls_delitem = cls. delitem _ 


def __getitem__(self, key): 
print('Getting ' + str(key)) 
return cls_getitem(self, key) 


def __setitem__(self, key, value): 
print('Setting {} = {!r}'.format(key, value) ) 
return cls_setitem(self, key, value) 


def __delitem__(self, key): 
print('Deleting ' + str(key)) 
return cls _delitem(self, key) 


cls. getitem = __getitem__ 
cls.__setitem__ = __setitem__ 
cls.__delitem__ = __delitem__ 


return cls 


@LoggedMapping 
class LoggedDict(dict): 
pass 





这 个 效果 跟 之 前 的 是 一 样 的， 而 且 不 再 需要 使 用 多 继承 了 。 参 考 9.12 小 节 获 取 更 多 类 装饰 
器 的 信息 ， 参 考 8.13 小 节 查 看 更 多 混入 类 和 类 装饰 器 的 例子 。 





8.19 实现 状态 对 象 或 者 状态 机 


问题 








你 想 实 现 一 个 状态 机 或 者 是 在 不 同 状 态 下 执行 操作 的 对 象 ， 但 是 又 不 想 在 代码 中 出 现 太 多 
的 条 件 判断 语句 。 


解决 方案 





在 很 多 程序 中 ， 有 些 对 象 会 根据 状态 的 不 同 来 执行 不 同 的 操作 。 比 如 考虑 如 下 的 一 个 连接 
WR: 


class Connection: 


“"" 普 通 方案 ， 好 多 个 判断 语句 ， 效 率 低下 ~~""* 


def __init__(self): 
self.state = 'CLOSED' 


def read(self): 
if self.state != 'OPEN': 
raise RuntimeError('Not open’) 
print( ‘reading’ ) 


def write(self, data): 
if self.state != ‘OPEN’: 
raise RuntimeError('Not open’) 
print(' writing ) 


def open(self): 
if self.state == ‘OPEN’: 
raise RuntimeError( ‘Already open') 
self.state = 'OPEN' 


def close(self): 
if self.state == 'CLOSED': 
raise RuntimeError('Already closed’) 
self.state = 'CLOSED' 





这 样 写 有 很 多 缺点 ， 首 先是 代码 太 复 杂 了 ， 好 多 的 条 件 判断 。 其 次 是 执行 效率 变 低 ， 因 
为 一 些 常见 的 操作 比如 read()、write() 每 次 执行 前 都 需要 执行 检查 。 





一 个 更 好 的 办 法 是 为 每 个 状态 定义 一 个 对 象 : 


class Connectionl : 
"" "新 方案 -- 对 每 个 状态 定义 一 个 类 """ 








def __init__(self): 
self.new_state(ClosedConnectionState) 


def new_state(self, newstate): 
self._state = newstate 
# Delegate to the state class 


def read(self): 
return self. state.read(self) 


def write(self, data): 
return self. state.write(self, data) 


def open(self): 
return self. state.open(self) 


def close(self): 
return self. state.close(self) 


# Connection state base class 
class ConnectionState: 
@staticmethod 
def read(conn): 
raise NotImplementedError() 


@staticmethod 
def write(conn, data): 
raise NotImplementedError() 


@staticmethod 
def open(conn): 
raise NotImplementedError() 


@staticmethod 
def close(conn): 
raise NotImplementedError() 


# Implementation of different states 
class ClosedConnectionState(ConnectionState) : 
@staticmethod 
def read(conn): 
raise RuntimeError('Not open’) 


@staticmethod 
def write(conn, data): 
raise RuntimeError('Not open’) 


@staticmethod 
def open(conn): 
conn.new_state(OpenConnectionState) 


@staticmethod 
def close(conn): 
raise RuntimeError('Already closed’) 


class OpenConnectionState(ConnectionState): 
@staticmethod 
def read(conn): 
print('reading' ) 


@staticmethod 
def write(conn, data): 
print(' writing ) 


@staticmethod 
def open(conn): 
raise RuntimeError( ‘Already open’) 


@staticmethod 
def close(conn): 
conn.new_state(ClosedConnectionState) 


下 面 是 使 用 演示 : 


>>> c = Connection() 
>>> c._state 
<class ' main .ClosedConnectionState'> 
>>> c.read() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 10, in read 
return self. state.read(self) 
File "example.py", line 43, in read 
raise RuntimeError('Not open’) 
RuntimeError: Not open 
>>> c.open() 
>>> c._state 


<class '__main__.OpenConnectionState'> 
>>> c.read() 

reading 

>>> c.write('hello') 

writing 


>>> c.close() 

>>> c._state 

<class '__main__.ClosedConnectionState'> 
>>> 


讨论 


如 果 代 码 中 出 现 太 多 的 条 件 判断 语句 的 话 ， 代 码 就 会 变 得 难以 维护 和 阅读 。 这 里 的 解决 
方案 是 将 每 个 状态 抽取 出 来 定义 成 一 个 类 。 








这 里 看 上 去 有 点 奇怪 ， 每 个 状态 对 象 都 只 有 静态 方法 ， 并 没有 存储 任何 的 实例 属性 数据 。 
实际 上 ， 所 有 状态 信息 都 只 存储 在 connection 实例 中 。 在 基 类 中 定义 的 
NotImplementedError 是 为 了 确保 子 类 实现 了 相应 的 方法 。 这 里 你 或 许 还 想 使 用 8.12 小 节 
讲解 的 抽象 基 类 方式 。 

















设计 模式 中 有 一 种 模式 叫 状态 模式 ， 这 一 小 节 算 是 一 个 初步 入 门 ! 
8.20 通过 字符 串 调 用 对 象 方法 
问题 


你 有 一 个 字符 串 形式 的 方法 名 称 ， 想 通过 它 调用 某 个 对 象 的 对 应 方法 。 


S 
或 
+k 
= 
ait 
aa 
Z| 
Y 
= 
a 
ga 
D 
ct 
= 
对 


import math 


class Point: 
def __init__(self, x, y): 
self.x = x 
self.y = y 


def __repr__(self): 
return 'Point({!r:},{!r:})'.format(self.x, self.y) 


def distance(self, x, y): 
return math.hypot(self.x - x, self.y - y) 


p = Point(2, 3) 
d = getattr(p, 'distance')(©, ©) # Calls p.distance(@, @) 


另外 一 种 方法 是 使 用 operator.methodcaller() ， 例 如 : 


import operator 
operator.methodcaller('distance', ©, @)(p) 


当 你 需要 通过 相同 的 参数 多 次 调用 某 个 方法 时 ， 使 用 operator.methodcaller 就 很 方便 
了 。 比如 你 需要 排序 一 系列 的 点 ， 就 可 以 这 样 做 : 


points = [ 
Point(1, 2), 
Point(3, @), 
Point(10, -3), 
Point(-5, -7), 
Point(-1, 8), 
Point(3, 2) 
] 
# Sort by distance from origin (@, @) 
points.sort(key=operator.methodcaller('distance', ©, @)) 


调用 一 个 方法 实际 上 是 两 部 独立 操作 ， 第 一 步 是 查找 属性 ， 第 二 步 是 函数 调用 。 因 此， 
为 了 调用 茶 个 方法 ， 你 可 以 首先 通过 getattr() 来 查找 到 这 个 属性 ， 然 后 再 去 以 函数 方式 
调用 它 即 可 。 


operator.methodcaller() 创建 一 个 可 调用 对 象 ， 并 同时 提供 所 有 必要 参数 ， 然后 调用 的 
时 候 只 需要 将 实例 对 象 传递 给 它 即 可 ， 比 如 : 


>>> p = Point(3, 4) 

>>> d = operator.methodcaller('distance', ©, 90) 
>>> d(p) 

5.0 

>>> 





通过 方法 名 称 字符 串 来 调用 方法 通常 出 现在 需要 模拟 case 语句 或 实现 访问 者 模式 的 时 
候 。 参考 下 一 小 节 获 取 更 多 高 级 例子 。 


8.21 实现 访问 者 模式 


问题 














你 要 处 理由 大 量 不 同类 型 的 对 象 组 成 的 复杂 数据 结构 ， 每 一 个 对 象 都 需要 需要 进行 不 同 的 
处 理 。 比如， 遍历 一 个 树 形 结构 ， 然 后 根据 每 个 节点 的 相应 状态 执行 不 同 的 操作 。 



































解决 方案 








这 里 遇 到 的 问题 在 编程 领域 中 是 很 普遍 的 ， 有 时 候 会 构建 一 个 由 大 量 不 同 对 象 组 成 的 数据 
结构 。 假 设 你 要 写 一 个 表示 数学 表达 式 的 程序 ， 那 么 你 可 能 需要 定义 如 下 的 类 : 

















class Node: 
pass 


class UnaryOperator (Node): 
def __init__(self, operand): 
self.operand = operand 


class BinaryOperator (Node): 
def __init__(self, left, right): 
self.left = left 
self.right = right 


class Add(BinaryOperator): 
pass 


class Sub(BinaryOperator): 
pass 


class Mul(BinaryOperator): 
pass 


class Div(BinaryOperator): 
pass 


class Negate(UnaryOperator): 
pass 


class Number (Node): 
def __init__(self, value): 
self.value = value 


PR Ja Al EER ERE Ba, WR ras: 


# Representation of 1 +2 * (3 - 4) / 5 
t1 = Sub(Number(3), Number (4) ) 

t2 = Mul(Number(2), t1) 

t3 Div(t2, Number(5)) 

t4 = Add(Number(1), t3) 




















这 样 做 的 问题 是 对 于 每 个 表达 式 ， 每 次 都 要 重新 定义 一 过， 有 没有 一 种 更 通用 的 方式 让 和 它 
支持 所 有 的 数字 和 操作 符 呢 。 这 里 我 们 使 用 访问 者 模式 可 以 达到 这 样 的 目的 : 











class NodeVisitor: 
def visit(self, node): 
methname = 'visit_ 


+ type(node).__name__ 
meth = getattr(self, methname, None) 
if meth is None: 
meth = self.generic_visit 
return meth(node) 


def generic_visit(self, node): 


raise RuntimeError('No {} method'.format('visit_' + type(node).__name__)) 


为 了 使 用 这 个 类 ， 可 以 定义 一 个 类 继承 它 并 且 实 现 各 种 visit_name() 方法 ， 其 中 Name 是 
node 类 型 。 例如， 如 果 你 想 求 表达 式 的 值 ， 可 以 这 样 写 : 





class Evaluator(NodeVisitor): 
def visit_Number(self, node): 
return node.value 


def visit_Add(self, node): 
return self.visit(node.left) + self.visit(node.right) 


def visit_Sub(self, node): 
return self.visit(node. left) 


self.visit(node.right) 


def visit_Mul(self, node): 
return self.visit(node.left) * self.visit(node.right) 


def visit_Div(self, node): 
return self.visit(node.left) / self.visit(node.right) 


def visit_Negate(self, node): 
return -node.operand 


使 用 示例 : 


>>> e = Evaluator() 
>>> e.visit(t4) 

0.6 

>>> 





作为 一 个 不 同 的 例子 ， 下 面 定义 一 个 类 在 一 个 栈 上 面 将 一 个 表达 式 转 换 成 多 个 操作 序列 : 


class StackCode(NodeVisitor): 


使 用 示例 : 


>>> S 


def 


def 


def 


def 


def 


def 


def 


def 


def 


generate_code(self, node): 
self.instructions [] 


self.visit(node) 
return self.instructions 


visit_Number(self, node): 
self.instructions.append(('PUSH', node.value) ) 


binop(self, node, instruction): 
self.visit(node.left) 
self.visit(node.right) 
self.instructions.append( (instruction, )) 


visit_Add(self, node): 
self.binop(node, 'ADD') 
visit_Sub(self, node): 
self.binop(node, 'SUB') 
visit_Mul(self, node): 
self.binop(node, 'MUL') 
visit_Div(self, node): 
self.binop(node, "DIV ') 

unaryop(self, node, instruction): 
self.visit(node.operand) 
self.instructions.append( (instruction, )) 


visit_Negate(self, node): 


self.unaryop(node, 'NEG') 


StackCode() 


>>> s.generate_code(t4) 


[('PUSH', 1), 
( MUL ，)， 


>>> 


刚 开始 的 时 候 你 可 能 会 写 大 量 的 if/else 语 句 来 实现 ， 


('PUSH' 2), 
('PUSH', 5), 


('PUSH', 3), ('PUSH', 4), 
('DIV',), ('ADD',)] 


so 














这 里 


Wi 


("SUB',), 


问 者 模式 的 好 处 就 是 通 


getattr() 来 获取 相应 的 方法 ， 并 利用 递归 来 近 历 所 有 的 节点 : 








过 


def binop(self, node, instruction): 
self.visit(node.left) 
self.visit(node.right) 
self.instructions.append( (instruction, )) 








还 有 一 点 需要 指出 的 是 ， 这 种 技术 也 是 实现 其 他 语言 中 switch 或 case 语 句 的 方式 。 比如 ， 
如 果 你 正在 写 一 个 HTTP 框 架 ， 你 可 能 会 写 这 样 一 个 请 求 分 发 的 控制 器 : 


class HTTPHandler: 

def handle(self, request): 
methname = ‘do_' + request.request_method 
getattr(self, methname) (request) 

def do_GET(self, request): 
pass 

def do_POST(self, request): 
pass 

def do_HEAD(self, request): 
pass 





Vi a) a Pa REE RH, ORE IRE ATR BEA lal ea, 
有 时 候 会 超过 Python 的 递归 深度 限制 (参考 sys. getrecursionlimit() )。 








可 以 参照 8.22 小 节 ， 利 用 生成 器 或 迭代 器 来 实现 非 递 归 亿 历 算法 。 











在 跟 解析 和 编译 相关 的 编程 中 使 用 访问 者 模式 是 非常 常见 的 。 Python 本 身 的 ast 模块 值 
的 关注 下 ， 可 以 去 看 看 源码 。 9.24 小 节 演 示 了 一 个 利用 ast 模块 来 处 理 Python 源 代码 的 
例子 。 














8.22 不 用 递归 实现 访问 者 模式 


问题 

















你 使 用 访问 者 模式 所 有 历 一 个 很 深 的 内 套 树 形 数据 结构 ， 并 且 因为 超过 骨 套 层级 限制 而 失 
败 。 你 想 消除 递归 ， 并 同时 保持 访问 者 编程 模式 。 





解决 方案 














通过 巧妙 的 使 用 生成 器 可 以 在 树 饥 历 或 搜索 算法 中 消除 递归 。 在 8.21 小 节 中 ， 我 们 给 出 了 
一 个 访问 者 类 。 下 面 我 们 利用 一 个 栈 和 生成 器 重新 实现 这 个 类 : 


import types 


class Node: 
pass 


class NodeVisitor: 
def visit(self, node): 
stack = [node] 
last_result = None 
while stack: 
try: 
last = stack[-1] 
if isinstance(last, types.GeneratorType): 
stack.append(last.send(last_result) ) 
last_result = None 
elif isinstance(last, Node): 
stack.append(self._visit(stack.pop())) 
else: 
last_result = stack.pop() 
except StopIteration: 
stack.pop() 


return last_result 


def _visit(self, node): 


methname = ‘visit_' + type(node).__name__ 
meth = getattr(self, methname, None) 
if meth is None: 

meth = self.generic_visit 


return meth(node) 


def generic_visit(self, node): 
raise RuntimeError('No {} method'.format('visit_' + type(node).__name_)) 


如 果 你 使 用 这 个 类 ， 也 能 达到 相同 的 效果 。 事 实 上 你 完全 可 以 将 它 作为 上 一 节 中 的 访问 者 
模式 的 蔡 代 实现 。 考 虑 如 下 代码 ， 遍 历 一 个 表达 式 的 树 : 

















fasi 


class UnaryOperator (Node): 
def __init__(self, operand): 
self.operand = operand 


class BinaryOperator(Node): 
def __init__(self, left, right): 
self.left = left 
self.right = right 


class Add(BinaryOperator): 
pass 


class Sub(BinaryOperator) : 
pass 


class Mul(BinaryOperator): 


pass 


class Div(BinaryOperator) : 
pass 


class Negate(UnaryOperator): 
pass 


class Number(Node): 
def __init__(self, value): 


self.value = value 


# A sample visitor class that evaluates expressions 


class Evaluator(NodeVisitor): 


def visit_Number(self, node): 


return node.value 


def visit_Add(self, node): 
return self.visit(node 


def visit_Sub(self, node): 
return self.visit(node 


def visit_Mul(self, node): 
return self.visit(node 


def visit_Div(self, node): 
return self.visit(node 


. left) 


left) 


- left) 


left) 


def visit_Negate(self, node): 


self. 


self. 


self. 


self. 


return -self.visit(node.operand) 


if __name__ == ' main _ 
# 1 + 2*(3-4) / 5 
t1 = Sub(Number(3), Number 
t2 = Mul(Number(2), t1) 
t3 Div(t2, Number(5)) 
t4 = Add(Number(1), t3) 
# Evaluate it 
e = Evaluator() 


print(e.visit(t4)) # Outputs 6.6 


(4)) 


visit(node. 


visit(node. 


visit(node. 


visit(node. 


WERE RKATREBA ERA Evaluator SRA: 


right) 


right) 


right) 


right) 


>>> a = Number(@) 
>>> for n in range(1, 100000): 


.a Add(a, Number(n)) 


>>> e Evaluator() 


>>> e.visit(a) 


Traceback (most recent call last): 


File "visitor.py", line 29, in _visit 
return meth(node) 
File "visitor.py", line 67, in visit_Add 
return self.visit(node.left) + self.visit(node.right) 
RuntimeError: maximum recursion depth exceeded 
>>> 


现在 我 们 稍微 修改 下 上 面 的 Evaluator: 


class Evaluator(NodeVisitor): 
def visit_Number(self, node): 
return node.value 


def visit_Add(self, node): 
yield (yield node.left) + (yield node.right) 


def visit_Sub(self, node): 
yield (yield node.left) - (yield node.right) 


def visit_Mul(self, node): 
yield (yield node.left) * (yield node.right) 


def visit_Div(self, node): 
yield (yield node.left) / (yield node.right) 


def visit_Negate(self, node): 
yield - (yield node.operand) 





再 次 运行 ， 就 不 会 报错 了 : 


>>> a = Number(@) 
>>> for n in range(1,100000): 
a = Add(a, Number(n)) 


>>> e = Evaluator() 
>>> e.visit(a) 
4999950000 

>>> 


如 果 你 还 想 添 加 其 他 自 定义 逻辑 也 没 问 题 : 





class Evaluator(NodeVisitor): 


def visit_Add(self, node): 
print('Add:', node) 


lhs = 


yield node.left 


print('left=', lhs) 


rhs = 


yield node.right 


print('right=', rhs) 


yield 


下 面 是 简单 的 六 


lhs + rhs 


it: 


>>> e = Evaluator() 


>>> e.visit(t4) 
Add: <__main__.Add object at 0x1006a8d90> 


left= 1 
right= -0.4 
0.6 

>>> 


讨论 








这 一 小 节 我 们 演示 了 生成 器 和 协 程 在 程序 控制 流 方面 的 强大 功能 。 避免 递归 的 一 个 通常 
方法 是 使 用 一 个 栈 或 队列 的 数据 结构 。 例如， 深度 优先 的 所 有 历 算法 ， 第 一 次 碰 到 一 个 节 
点 时 将 其 压 入 栈 中 ， 处 理 完 后 弹出 栈 。 visit() 方法 的 核心 思路 就 是 这 样 。 





















































另外 一 个 需要 至 





据 并 暂时 挂 起 。 
归 : 


解 的 就 是 生成 器 中 yield 语 名 。 当 碰 到 yield 语 名 时 ， 生 成 器 会 返回 一 个 数 
上 面 的 例子 使 用 这 个 技术 来 代替 了 递归 。 例 如 ， 之 前 我 们 是 这 样 写 递 


value = self.visit(node.left) 


现在 换 成 yield 语 句 : 


value = yield 


node.left 


它 会 将 node.left 返回 给 visti() 方法 ， 然 后 visti() 方法 调用 那个 节点 相应 的 
vist_Name() 方法 。 yield 暂 时 将 程序 控制 器 让 出 给 调用 者 ， 当 执行 完 后 ， 结 果 会 赋值 给 


value, 





看 完 这 一 小 节 ， 你 也 许 想 去 寻找 其 它 没有 yield 语 句 的 方案 。 但 是 这 么 做 没有 必要 ， 你 必须 
处 理 很 多 棘手 的 问题 。 例如， 为 了 消除 递归 ， 你 必须 要 维护 一 个 栈 结构 ， 如 果 不 使 用 生 
成 器 ， 代 码 会 变 得 很 脐 肿 ， 到 处 都 是 栈 操作 语句 、 回 调 函数 等 。 实际 上 ， 使 用 yield 语 名 
可 以 让 你 写 出 非常 漂亮 的 代码 ， 它 消除 了 递归 但 是 看 上 去 又 很 像 递 归 实现 ， 代 码 很 简洁 。 





8.23 循环 引用 数据 结构 的 内 存 管理 


问题 














你 的 程序 创建 了 很 多 循环 引用 数据 结构 (比如 树 、 图 、 观 察 者 模式 等 )， 你 碰 到 了 内 存 管理 


难题 。 








一 个 简单 的 循环 引用 数据 结构 例子 就 是 一 个 树 形 结构 ， 双 亲 节 点 有 指针 指向 孩子 节点 ， 孩 
子 节 点 义 返 回来 指向 双亲 节点 。 这 种 情况 下 ， 可 以 考虑 使 用 weakref 库 中 的 弱 引 用 。 例 
如 : 


import weakref 


class Node: 
def __init__(self, value): 
self.value = value 
self. parent = None 
self.children = [] 


def _repr__(self): 
return 'Node({!r:})'.format(self.value) 


# property that manages the parent as a weak-reference 
@property 
def parent(self): 

return None if self._parent is None else self. _parent() 


@parent.setter 
def parent(self, node): 
self. parent = weakref.ref(node) 


def add_child(self, child): 
self.children.append(child) 
child.parent = self 


这 种 是 想 方 式 允 许 parent 静 默 终 止 。 例 如 : 


>>> root = Node('parent') 
>>> c1 = Node('child') 
>>> root.add_child(c1) 
>>> print(c1.parent) 
Node('parent' ) 

>>> del root 

>>> print(c1.parent) 

None 

>>> 


讨论 


循环 引用 的 数据 结构 在 Python 中 是 一 个 很 棘手 的 问题 ， 


用 于 这 种 情形 。 例 如 考虑 如 下 代码 : 


# Class just to illustrate when deletion occurs 
class Data: 
def _del__(self): 
print('Data. del _') 


# Node class involving a cycle 
class Node: 
def __init__(self): 
self.data = Data() 
self.parent = None 
self.children = [] 


def add_child(self, child): 


self.children.append(child) 
child.parent = self 


下 面 我 们 使 用 这 个 代码 来 做 一 些 垃圾 回收 试验 : 





>>> a = Data() 

>>> del a # Immediately deleted 
Data. del _ 

>>> a = Node() 

>>> del a # Immediately deleted 
Data. del _ 

>>> a = Node() 

>>> a.add_child(Node()) 

>>> del a # Not deleted (no message) 
>>> 


因为 正常 的 垃圾 回收 机 





可 以 看 到 ， 最 后 一 个 的 删除 时 打印 语句 没有 出 现 。 原 因 是 Python 的 垃圾 回收 机 制 是 基于 
简单 的 引用 计数 。 当 一 个 对 象 的 引用 数 变 成 0 的 时 候 才 会 立即 删除 掉 。 而 对 于 循环 引用 这 
个 条 件 永远 不 会 成 立 。 因此， 在 上 面 例子 中 最 后 部 分 ， 父 节点 和 孩子 节点 互相 拥有 对 方 
的 引用 ， 导 致 每 个 对 象 的 引用 计数 都 不 可 能 变 成 0。 


Python 有 另外 的 垃圾 回收 器 来 专门 针对 循环 引用 的 ， 但 是 你 永远 不 知道 它 什么 时 候 会 触 
发 。 另 外 你 还 可 以 手动 的 触发 它 ， 但 是 代码 看 上 去 很 挫 


>>> import gc 
>>> gc.collect() # Force collection 


Data. del _ 
Data. del _ 
>>> 




















如 果 循 环 引 用 的 对 象 自己 还 定义 了 自己 的 _del 0 方法 ， 那 么 会 让 情况 变 得 更 糟糕 。 
假设 你 像 下 面 这 样 给 Node 定 义 自己 的 _del _() WE: 


# Node class involving a cycle 
class Node: 
def __init__(self): 
self.data = Data() 
self.parent = None 
self.children = [] 


def add_child(self, child): 
self.children.append(child) 
child.parent = self 


# NEVER DEFINE LIKE THIS. 
# Only here to illustrate pathological behavior 
def _del__(self): 

del self.data 

del.parent 

del.children 


这 种 情况 下 ， 垃 圾 回收 永远 都 不 会 去 回收 这 个 对 象 的 ， 还 会 导致 内 存 泄露 。 如 果 你 试 着 
去 运行 它 会 发 现 ， Data._del ”消息 永远 不 会 出 现 了 ,甚至 在 你 强制 内 存 回 收 时 : 





>>> a = Node() 
>>> a.add_child(Node() 
>>> del a # No message (not collected) 


> 
> 
> 


>> import gc 
>> gc.collect() # No message (not collected) 
>> 


弱 引 用 消除 了 引用 循环 的 这 个 问题 ， 本 质 来 讲 ， 弱 引用 就 是 一 个 对 象 指针 ， 它 不 会 增加 它 
的 引用 计数 。 你 可 以 通过 weakref 来 创建 弱 引 用 。 例 如 : 


> 
> 
> 
> 
< 
> 


>> import weakref 

>> a = Node() 

>> a_ref = weakref.ref(a) 

>> a_ref 

weakref at @x100581f70; to 'Node' at 0x1005c5410> 
>> 





为 


了 访问 弱 引 用 所 引用 的 对 象 ， 你 可 以 像 函 数 一 样 去 调用 它 即 可 。 如 果 那 个 对 象 还 存在 就 


会 返回 它 ， 否 则 就 返回 一 个 None。 由 于 原始 对 象 的 引用 计数 没有 增加 ， 那 么 就 可 以 去 删 
除 它 了 。 例 如 ; 


>>> print(a_ref()) 

<__main__.Node object at 0x1005c5410> 
>>> del a 

Data. del _ 

>>> print(a_ref()) 


None 


>>> 


通 
J 
8. 


问 


你 
的 











过 这 里 演示 的 弱 引 用 技术 ， 你 会 发 现 不 再 有 循环 引用 问题 了 ， 一 旦 某 个 节点 不 被 使 用 
， 垃 圾 回收 器 立即 回收 它 。 你 还 能 参考 8.25 小 节 关 于 弱 引 用 的 另外 一 个 例子 。 

24 让 类 支持 比较 操作 

题 


想 让 某 个 类 的 实例 支持 标准 的 比较 运算 (比如 >=,!=,<=,< 等 )， 但 是 又 不 想 去 实现 那 一 大 于 
特殊 方法 。 


Python 类 对 每 个 比较 操作 都 需要 实现 一 个 特殊 方法 来 支持 。 例 如 为 了 支持 >= 操 作 符 ， 你 
需要 定义 一 个 _ge_0 方法 。 尽 管 定义 一 个 方法 没什么 问题 ， 但 如 果 要 你 实现 所 有 可 能 
的 比较 方法 那 就 有 点 烦人 了 。 























装饰 器 functools.total_ordering 就 是 用 来 简化 这 个 处 理 的 。 使 用 它 来 装饰 一 个 来 ， 你 只 
需 定义 一 个 _eq_() 方法 ， 外 加 其 他 方法 (_lt_,_le_,_gt_,or_ge_) 中 的 一 个 即 可 。 


然后 装饰 器 会 自动 为 你 填充 其 它 比 较 方法 。 




















作为 例子 ， 我 们 构建 一 些 房子 ， 然 后 给 它们 增加 一 些 房间 ， 最 后 通过 房子 大 小 来 比较 它 
们 : 


from functools import total_ordering 


class Room: 
def __init__(self, name, length, width): 
self.name = name 
self.length = length 
self.width = width 
self.square_feet = self.length * self.width 


@total_ordering 
class House: 
def __init__(self, name, style): 
self.name = name 
self.style = style 
self.rooms = list() 


@property 
def living space_footage(self): 
return sum(r.square_feet for r in self.rooms) 


def add_room(self, room): 
self.rooms.append(room) 


def __str__(self): 
return '{}: {} square foot {}'.format(self.name, 
self.living space footage, 
self.style) 


def __eq__(self, other): 
return self.living space footage == other.living space_footage 


def __1t__(self, other): 
return self.living space footage < other.living space_footage 





这 里 我 们 只 是 给 House 类 定义 了 两 个 方法 : _eq_() 和 _it_Q ， 它 就 能 支持 所 有 的 比 
较 操 作 : 


# Build a few houses, and add rooms to them 

h1 = House('h1', 'Cape') 

h1.add_room(Room('Master Bedroom’, 14, 21)) 

h1i.add_room(Room('Living Room', 18, 20)) 

h1.add_room(Room('Kitchen', 12, 16)) 

h1.add_room(Room('Office', 12, 12)) 

h2 = House('h2', "Ranch ' ) 

h2.add_room(Room('Master Bedroom’, 14, 21)) 

h2.add_room(Room('Living Room', 18, 20)) 

h2.add_room(Room('Kitchen', 12, 16)) 

h3 = House('h3', ‘'Split') 

h3.add_room(Room('Master Bedroom’, 14, 21)) 

h3.add_room(Room('Living Room', 18, 20)) 

h3.add_room(Room('Office', 12, 16)) 

h3.add_room(Room('Kitchen', 15, 17)) 

houses = [h1, h2, h3] 

print('Is h1 bigger than h2?', h1 > h2) # prints True 

print('Is h2 smaller than h3?', h2 < h3) # prints True 

print('Is h2 greater than or equal to h1?', h2 >= h1) # Prints False 
print('Which one is biggest?', max(houses)) # Prints 'h3: 110@1-square-foot Split’ 
print('Which is smallest?', min(houses)) # Prints 'h2: 846-square-foot Ranch' 














其 实 total_ordering 装饰 器 也 没 那么 神秘 。 它 就 是 定义 了 一 个 从 每 个 比较 支持 方法 到 所 
有 需要 定义 的 其 他 方法 的 一 个 映射 而 已 。 比如 你 定义 了 ie 0O 方法 ， 那 么 它 就 被 用 来 
构建 所 有 其 他 的 需要 定义 的 那些 特殊 方法 。 实际 上 就 是 在 类 里 面 像 下 面 这 样 定义 了 一 些 
特殊 方法 : 





class House: 
def eq__(self, other): 


pass 
def __1t__(self, other): 

pass 
# Methods created by @total_ordering 
__le = lambda self, other: self < other or self == other 
__gt__ = lambda self, other: not (self < other or self == other) 
_ge = lambda self, other: not (self < other) 
__ne__ = lambda self, other: not self == other 





当然 ， 你 自己 去 写 也 很 容易 ， 但 是 使 用 @total_ordering 可 以 简化 代码 ， 何 乐 而 不 为 呢 。 


8.25 创建 缓存 实例 


问题 


在 创建 一 个 类 的 对 象 时 ， 如 果 之 前 使 用 同样 参数 创建 过 这 个 对 象 ， 你 想 返 回 它 的 缓存 引 
用 。 





这 种 通常 是 因为 你 希望 相同 参数 创建 的 对 象 时 单 例 的 。 在 很 多 库 中 都 有 实际 的 例子 ， 比 
如 logging 模块 ， 使 用 相同 的 名 称 创建 的 logger 实例 永远 只 有 一 个 。 例 如 : 


>>> import logging 

>>> a = logging.getLogger('foo') 
>>> b = logging.getLogger('bar' ) 
>>> a is b 

False 

>>> c = logging.getLogger('foo') 
>>> a isc 

True 

>>> 


为 了 达到 这 样 的 效果 ， 你 需要 使 用 一 个 和 类 本 身分 开 的 工厂 函数 ， 例 如 : 


# The class in question 
class Spam: 
def __init__(self, name): 
self.name = name 


# Caching support 
import weakref 
_Spam_cache = weakref.WeakValueDictionary() 
def get_spam(name): 
if name not in _spam_cache: 
s = Spam(name) 
_Spam_cache[name] = 
else: 
s = _Sspam_cache[name] 
return s 


然后 做 一 个 测试 ， 你 会 发 现 跟 之 前 那个 日 志 对 象 的 创建 行为 是 一 致 的 : 


>>> a = get_spam('foo') 
>>> b = get_spam('bar' ) 
>>> a is b 

False 

>>> c = get_spam('foo' ) 
>>> a isc 

True 

>>> 





编写 一 个 工厂 函数 来 修改 普通 的 实例 创建 行为 通常 是 一 个 比较 简单 的 方法 。 但 是 我 们 还 
能 否 找 到 更 优雅 的 解决 方案 呢 ? 


例如 ， 你 可 能 会 考虑 重新 定义 类 的 _new_() 方法 ， 就 像 下 面 这 样 : 


# Note: This code doesn't quite work 
import weakref 


class Spam: 
_Spam_cache = weakref.WeakValueDictionary() 
def __new__(cls, name): 
if name in cls. spam cache: 
return cls. _spam_cache[name | 
else: 
self = super().__new__(cls) 
cls._spam_cache[name] = self 
return self 
def __init__(self, name): 
print( ‘Initializing Spam’) 
self.name = name 





初 看 起 来 好 像 可 以 达到 预期 效果 ， 但 是 问题 是 _init_() 每 次 都 会 被 调用 ， 不 管 这 个 实 
例 是 否 被 缓存 了 。 例 如 : 


>>> S = Spam('Dave') 
Initializing Spam 
>>> t = Spam('Dave') 
Initializing Spam 
>>> s is t 

True 

>>> 


这 个 或 许 不 是 你 想 要 的 效果 ， 因 此 这 种 方法 并 不 可 取 。 


上 面 我 们 使 用 到 了 弱 引 用 计数 ， 对 于 垃圾 回收 来 讲 是 很 有 帮助 的 ， 关 于 这 个 我 们 在 8.23 小 
节 已 经 讲 过 了 。 当 我 们 保持 实例 缓存 时 ， 你 可 能 只 想 在 程序 中 使 用 到 它们 时 才 保 存 。 一 
个 weakvalueDictionary 实例 只 会 保存 那些 在 其 它 地 方 还 在 被 使 用 的 实例 。 否则 的 话 ， 只 
要 实例 不 再 被 使 用 了 ， 它 就 从 字典 中 被 移 除了 。 观 察 下 下 面 的 测试 结果 : 














>>> a get_spam('foo' 


get_spam('bar' 


w 


>>> b 


wwe 


>>> c = get_spam('foo' 
>>> list(_spam_cache) 
['foo', 'bar'] 

>>> del a 

>>> del c 

>>> list(_spam_cache) 
['bar'] 

>>> del b 

>>> list(_spam_cache) 
[] 


>>> 





对 于 大 部 分 程序 而 已 ， 这 里 代码 已 经 够 用 了 。 不 过 还 是 有 一 些 更 高 级 的 实现 值得 了 解 下 。 

















首先 是 这 里 使 用 到 了 一 个 全 局 变量 ， 并 且 工 三 函数 跟 类 放 在 一 块 。 我 们 可 以 通过 将 缓存 代 
码 放 到 一 个 单独 的 缓存 管理 器 中 : 




















import weakref 


class CachedSpamManager : 
def __init__(self): 
self._cache = weakref.WeakValueDictionary() 


def get_spam(self, name): 
if name not in self. cache: 
s = Spam(name) 
self. _cache[name] = s 
else: 
s = self._cache[name] 
return s 


def clear(self): 
self._cache.clear() 


class Spam: 
manager = CachedSpamManager () 
def __init__(self, name): 
self.name = name 


def get_spam(name): 
return Spam.manager.get_spam(name) 




















这 样 的 话 代 码 更 清晰 ， 并 且 也 更 灵活 ， 我 们 可 以 增加 更 多 的 缓存 管理 机 制 ， 只 需要 蔡 代 
manager 即 可 。 











还 有 一 点 就 是 ， 我 们 暴露 了 类 的 实例 化 给 用 户 ， 用 户 很 容易 去 直接 实例 化 这 个 类 ， 而 不 是 
使 用 工 三 方法， 如 : 


>>> a = Spam('foo') 
>>> b = Spam('foo') 
>>> a is b 

False 

>>> 


有 几 种 方式 可 以 防止 用 户 这 样 做 ， 第 一 个 是 将 类 的 名 字 修 改 为 以 下 划 线 (JJ 开头 ， 提 示 用 户 
别 直 接 调用 它 。 第 二 种 就 是 让 这 个 类 的 int O 方法 抛 出 一 个 异常 ， 让 它 不 能 被 初始 
化 : 





class Spam: 
def __init__(self, *args, **kwargs): 
raise RuntimeError("Can't instantiate directly") 


# Alternate constructor 
@classmethod 
def _new(cls, name): 
self = cls. new (cls) 
self.name = name 














然后 修改 缓存 管理 器 代码 ， 使 用 spam._new() 来 创建 实例 ， 而 不 是 直接 调用 spamo 构造 
函数 : 





和 最 后 的 修正 方案 ------------------------ 
class CachedSpamManager2: 
def __init__(self): 
self._cache = weakref.WeakValueDictionary() 


def get_spam(self, name): 
if name not in self._cache: 
temp = Spam3._new(name) # Modified creation 
self. _cache[name] = temp 
else: 
temp = self. _cache[name] 
return temp 


def clear(self): 
self._cache.clear() 


class Spam3: 
def __init__(self, *args, **kwargs): 
raise RuntimeError( "Can't instantiate directly") 


# Alternate constructor 
@classmethod 
def _new(cls, name): 
self = cls. new (cls) 
self.name = name 
return self 





最 后 这 样 的 方案 就 已 经 足够 好 了 。 缓存 和 其 他 构造 模式 还 可 以 使 用 9.13 小 节 中 的 元 类 实现 
的 更 优雅 一 点 (使 用 了 更 高 级 的 技术 )。 





第 九 章 : 元 编程 


软件 开发 领域 中 最 经 典 的 口头 禅 就 是 "dont repeat yourself”. 也 就 是 说 ， 任 何 时 候 当 你 的 
程序 中 存在 高 度 重 复 ( 或 者 是 通过 剪 切 复制 ) 的 代码 时 ， 都 应 该 想 想 是 否 有 更 好 的 解决 方 
案 。 在 Python 当中 ， 通 第 都 可 以 通过 元 编程 来 解决 这 类 问题 。 简 而 言 之 ， 元 编程 就 是 天 





























于 创建 操作 源 代 码 (比如 修改 、 生 成 或 包装 原来 的 代码 ) 的 函数 和 类 。 主要 技术 是 使 用 装饰 
器 、 类 装饰 器 和 元 类 。 不 过 还 有 一 些 其 他 技术 ， 包 括 签名 对 象 、 使 用 exec 执行 代码 以 
及 对 内 部 函数 和 类 的 反射 技术 等 。 本 章 的 主要 目的 是 向 大 家 介绍 这 些 元 编程 技术 ， 并 且 
给 出 实例 来 演示 它们 是 怎样 定制 化 你 的 源 代码 行为 的 。 
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9 在 函数 上 添加 包装 器 


问题 




















你 想 在 函数 上 添加 一 个 包装 器 ， 增 加 额外 的 操作 处 理 ( 比 如 日 志 、 计 时 等 )。 





解决 方案 





如 果 你 想 使 用 额外 的 代码 包装 一 个 函数 ， 可 以 定义 一 个 装饰 器 函数 ， 例 如 : 


import time 
from functools import wraps 


def timethis(func): 
Decorator that reports the execution time. 


@wraps(func) 

def wrapper(*args, **kwargs): 
start = time.time() 
result = func(*args, **kwargs) 
end = time.time() 
print(func. name_ _, end-start) 
return result 

return wrapper 





下 面 是 使 用 装饰 器 的 例子 : 


>>> @timethis 
. def countdown(n): 


Counts down 


while n > 6: 
n -= 


>>> countdown(166666) 
countdown 0.008917808532714844 
>>> countdown(16666666) 
countdown 6.87188299392912 

>>> 





一 个 装饰 器 就 是 一 个 函数 ， 它 接受 一 个 函数 作为 参数 并 返回 一 个 新 的 函数 。 当 你 像 下 面 
这 样 写 : 


@timethis 
def countdown(n): 
pass 


跟 像 下 面 这样 写 其 实效 果 是 一 样 的 : 


def countdown(n): 
pass 
countdown = timethis(countdown) 























顺便 说 一 下 ， 内 置 的 装饰 器 比如 @staticmethod, @classmethod,@property 原理 也 是 样 
的 。 例 如 ， 下 面 这 两 个 代码 片段 是 等 价 的 : 


class A: 
@classmethod 
def method(cls): 

pass 


class B: 
# Equivalent definition of a class method 
def method(cls): 
pass 
method = classmethod(method) 





在 上 面 的 wrapper() 函数 中 ， 装饰 器 内 部 定义 了 一 个 使 用 *args 和 **kwargs 来 接受 任 
意 参 数 的 函数 。 在 这 个 函数 里 面 调用 了 原始 函数 并 将 其 结果 返回 ， 不 过 你 还 可 以 添加 其 
他 额外 的 代码 (比如 计时 )。 然后 这 个 新 的 函数 包装 器 被 作为 结果 返回 来 代替 原始 函数 。 














需要 强调 的 是 装饰 器 并 不 会 修改 原始 函数 的 参数 签名 以 及 返回 值 。 使 用 *args 和 
**kwargs 目的 就 是 确保 任何 参数 都 能 适用 。 而 返回 结果 值 基本 都 是 调用 原始 函数 
func(*args, **kwargs) 的 返回 结果 ， 其 中 func 就 是 原始 函数 。 





刚 开始 学 习 装 饰 器 的 时 候 ， 会 使 用 一 些 简单 的 例子 来 说 明 ， 比 如 上 面 演示 的 这 个 。 不 过 
实际 场景 使 用 时 ， 还 是 有 一 些 细节 问题 要 注意 的 。 比如 上 面 使 用 @uraps(tuncy 注解 是 很 
重要 的 ， 它 能 保留 原始 函数 的 元 数据 (下 一 小 节 会 讲 到 )， 新 手 经 常会 忽略 这 个 细节 。 接 下 
来 的 几 个 小 节 我 们 会 更 加 深入 的 讲解 装饰 器 函数 的 细节 问题 ， 如 果 你 想 构造 你 自己 的 装饰 
器 函数 ， 需 要 认真 看 一 下 。 














9.2 创建 沪 饰 器 时 保留 函数 元 信息 
问题 


你 写 了 一 个 装饰 器 作用 在 某 个 函数 上 ， 但 是 这 个 函数 的 重要 的 元 信息 比如 名 字 、 文 档 字 符 
串 、 注 解 和 参数 签名 都 丢失 了 。 





任何 时 候 你 定义 装饰 器 的 时 候 ， 都 应 该 使 用 functools 库 中 的 @wraps 装饰 器 来 注解 底层 
包装 图 数 。 例 如 : 


import time 
from functools import wraps 
def timethis(func): 


Decorator that reports the execution time. 


@wraps(func) 

def wrapper(*args, **kwargs): 
start = time.time() 
result = func(*args, **kwargs) 
end = time.time() 
print(func.__name__, end-start) 
return result 

return wrapper 








下 面 我 们 使 用 这 个 被 包装 后 的 函数 并 检查 它 的 元 人 





>>> @timethis 
. def countdown(n:int): 


Counts down 


while n > 6: 
n -= 


>>> countdown(100000) 
countdown @.008917808532714844 


>>> countdown. name _ 
“countdown ' 
>>> countdown. doc _ 


"\n\tCounts down\n\t' 














>>> countdown. annotations __ 
{'n': <class ‘int'>} 
>>> 
讨论 
在 编写 装饰 器 的 时 候 复 制 元 信息 是 
么 你 会 发 现 被 装饰 函数 丢失 了 所 有 有 用 的 信息 
样 的 : 
>>> countdown. name _ 
'wrapper ' 
>>> countdown. doc _ 
>>> countdown. annotations _ 
{} 
>>> 


A 


@wraps 有 一 个 重要 特征 是 它 外 


>>> countdown. wrapped__(16606060) 


227 


一 个 非常 重要 的 部 分 。 


外 让 你 通过 属性 


a 
言 息 : 





如 果 你 忘记 了 使 用 @wrap ， 那 
So 比如 如 果 和 忽略 @wrap 后 的 效果 是 下 面 这 








直接 访问 被 包装 函数 。 例 如 : 


wrapped__ 











属性 还 能 


__wrapped__ 


让 被 装饰 函数 正确 暴露 底 层 的 参数 签名 信 


a. Bilan: 





>>> from inspect import signature 
>>> print(signature(countdown) ) 
(n:int) 

>>> 














一 个 很 普遍 的 问题 是 怎样 让 装饰 器 去 直接 复制 原始 函数 的 参数 签名 信息 ， 如 果 想 自己 手 
动 实现 的 话 需 要 做 大 量 的 工作 ， 最 好 就 简单 的 使 用 __wrapped_ 装饰 器 。 通 过 底层 的 


__wrapped_ ”属性 访问 到 函数 签名 信息 。 更 多 关于 签名 的 内 容 可 以 参考 9.16 小 节 。 

















| 





9.3 fi ER — “AS ee UR at 


问题 





一 个 装饰 器 已 经 作用 在 一 个 函数 上 ， 你 想 撤 销 它 ， 直 接 访问 原始 的 未 包装 的 那个 函数 。 





假设 装饰 器 是 通过 @wraps (参考 9.2 小 节 ) 来 实现 的 ， 那 么 你 可 以 通过 访问 
性 来 访问 原始 函数 : 


_wrapped__ 属 


>>> @somedecorator 
>>> def add(x, y): 
return x + y 


>>> orig add = add. __wrapped__ 
>>> orig _add(3, 4) 

7 

>>> 


讨论 


直接 访问 未 包装 的 原始 函数 在 调试 、 内 省 和 其 他 函数 操作 时 是 很 有 用 的 。 但 是 我 们 这 里 
的 方案 仅仅 适用 于 在 包装 器 中 正确 使 用 了 @wraps 或 者 直接 设置 了 _wrapped ”属性 的 情 
况 。 








如 果 有 多 个 包装 器 ， 那 么 访问 _wrapped_ 属性 的 行为 是 不 可 预知 的 ， 应 该 避免 这 样 做 。 
在 Python3.3 中 ， 它 会 略 过 所 有 的 包装 层 ， 比 如 ， 假 如 你 有 如 下 的 代码 : 





from functools import wraps 


def decorator1(func): 
@wraps(func) 
def wrapper(*args, **kwargs): 
print('Decorator 1') 
return func(*args, **kwargs) 
return wrapper 


def decorator2(func): 
@wraps(func) 
def wrapper(*args, **kwargs): 
print( ‘Decorator 2') 
return func(*args, **kwargs) 
return wrapper 


@decorator1 

@decorator2 

def add(x, y): 
return x + y 


下 面 我 们 在 Python3.3 下 测试 : 


>>> add(2，3) 

Decorator 1 

Decorator 2 

5 

>>> add.__wrapped__(2, 3) 
5 

>>> 


下 面 我 们 在 Python3.4 下 测试 : 


>>> add(2，3) 

Decorator 1 

Decorator 2 

5 

>>> add.__wrapped__(2, 3) 
Decorator 2 

5 

>>> 








最 后 要 说 的 是 ， 并 不 是 所 有 的 装饰 器 都 使 用 了 @wraps ， 因 此 这 里 的 方案 并 不 全 部 适用 。 
特别 的 ， 内 置 的 装饰 器 @staticmethod 和 @classmethod 就 没有 遵循 这 个 约定 (它们 把 原始 
函数 存储 在 属性 func_ 中 )。 














9.4 5E X — A TE B ACN ee HH a 


问题 





你 想 定义 一 个 可 以 接受 参数 的 装饰 器 


解决 方案 




















我 们 用 一 个 例子 详细 阐述 下 接受 参数 的 处 理 过 程 。 假 设 你 想 写 一 个 装饰 器 ， 给 函数 添加 
日 志 功 能 ， 当 时 允许 用 户 指定 日 志 的 级 别 和 其 他 的 选项 。 ea 装饰 器 的 定义 和 使 
用 示例 : 











from functools import wraps 
import logging 


def logged(level, name=None, message=None): 


Add logging to a function. level is the logging 
level, name is the logger name, and message is the 
log message. If name and message aren't specified, 
they default to the function's module and name. 


def decorate(func): 
logname = name if name else func. module _ 
log = logging.getLogger(logname) 
logmsg = message if message else func. name_ _ 


@wraps(func) 
def wrapper(*args, **kwargs): 
log.log(level, logmsg) 
return func(*args, **kwargs) 
return wrapper 
return decorate 


# Example use 
@logged(logging.DEBUG) 
def add(x, y): 

return x + y 


@logged(logging.CRITICAL, ‘example’ ) 
def spam(): 
print('Spam!') 





初 看 起 来 ， 这 种 实现 看 上 去 很 复杂 ， 但 是 核心 思想 很 简单 。 最 外 层 的 函数 logged() 接受 
参数 并 将 它们 作用 在 内 部 的 装饰 器 函数 上 面 。 内 层 的 函数 decorate) 接受 一 个 函数 作为 
参数 ， 然 后 在 函数 上 面 放置 一 个 包装 器 。 这 里 的 关键 点 是 包装 器 是 可 以 使 用 传递 给 
logged() 的 参数 的 。 























讨论 

定义 一 个 接受 参数 的 包装 器 看 上 去 比较 复杂 主要 是 因为 底层 的 调用 序列 。 特 别 的 ， 如 果 你 
有 下 面 这 个 代码 : 

@decorator(x, y, Z) 


def func(a, b): 
pass 




















装饰 器 处 理 过 程 跟 下 面 的 调用 是 等 效 的 ; 


def func(a, b): 
pass 
func = decorator(x, y, z)(func) 





decorator(x, y, Z) 的 返回 结果 必须 是 一 个 可 调用 对 象 ， 它 接受 一 个 函数 作为 参数 并 包装 
可 以 参考 9.7 小 节 中 另外 一 个 可 接受 参数 的 包装 器 例子 。 





它 ， 
9.5 可 目 定 义 属性 的 装饰 器 


问题 








你 想 写 一 个 装饰 器 来 包装 一 个 函数 ， 并 且 多 许 用 户 提供 参数 在 运行 时 控制 装饰 器 行为 。 


JO 


引入 一 个 访问 函数 ， 使 用 nolocal 来 修改 内 部 变量 。 然后 这 个 访问 函数 被 作为 一 个 属性 


赋值 给 包装 函数 。 








from functools import wraps, partial 
import logging 
# Utility decorator to attach a function as an attribute of obj 
def attach_wrapper(obj, func=None): 

if func is None: 

return partial(attach_wrapper, obj) 
setattr(obj, func. _name__, func) 
return func 


def logged(level, name=None, message=None): 
Add logging to a function. level is the logging 
level, name is the logger name, and message is the 
log message. If name and message aren't specified, 
they default to the function's module and name. 
def decorate(func): 
logname = name if name else func. module _ 
log = logging.getLogger(logname) 
logmsg = message if message else func. name_ _ 


@wraps(func) 

def wrapper(*args, **kwargs): 
log.log(level, logmsg) 
return func(*args, **kwargs) 


# Attach setter functions 
@attach_wrapper (wrapper) 
def set_level(newlevel): 
nonlocal level 
level = newlevel 


@attach_wrapper (wrapper) 
def set_message(newmsg): 
nonlocal logmsg 
logmsg = newmsg 


return wrapper 


return decorate 


# Example use 
@logged(logging.DEBUG) 
def add(x, y): 

return x + y 


@logged(logging.CRITICAL, ‘example’ ) 
def spam(): 
print('Spam!') 





下 面 是 交互 环境 下 的 使 用 例子 ; 


>>> import logging 

>>> logging. basicConfig(level=logging.DEBUG) 
>>> add(2, 3) 

DEBUG: main _:add 

5 

>>> # Change the Log message 

>>> add.set_message('Add called’) 
>>> add(2, 3) 

DEBUG: main _:Add called 

5 

>>> # Change the Log Level 

>>> add.set_level(logging.WARNING) 
>>> add(2, 3) 

WARNING: __main__:Add called 

5 

>>> 


这 一 小 节 的 关键 点 在 于 访问 函数 (如 set_message() 和 set_level() )， 它 们 被 作为 属性 赋 
给 包装 器 。 每 个 访问 函数 允许 使 用 nonlocal 来 修改 函数 内 部 的 变量 。 

















还 有 一 个 令 人 吃惊 的 地 方 是 访问 函数 会 在 多 层 装 饰 器 间 传 播 (如 果 你 的 装饰 器 都 使 用 了 
@functools.wraps 注解 )。 例 如 ， 假 设 你 引入 另外 一 个 装饰 器 ， 比 如 9.2 小 节 中 的 
@timethis ， 像 下 面 这 样 : 





@timethis 
@logged(logging.DEBUG) 
def countdown(n): 
while n > @: 
n -= 


你 会 发 现 访问 函数 依旧 有 效 : 


>>> countdown(10000000) 

DEBUG: main _:countdown 

countdown 6.8198461532592773 

>>> countdown.set level(logging.WARNING) 

>>> countdown.set message("Counting down to zero") 
>>> countdown (100000@0) 

WARNING: __main__:Counting down to zero 

countdown @.8225970268249512 

>>> 





你 还 会 发 现 即使 装饰 器 像 下 面 这 样 以 相反 的 方向 排放 ， 效 果 也 是 一 样 的 : 


@logged(logging.DEBUG) 
@timethis 
def countdown(n): 
while n > @: 
n -= 





还 能 通过 使 用 lambda 表 达 式 代码 来 让 访问 函数 的 返回 不 同 的 设 定 值 : 





@attach wrapper (wrapper) 
def get_level(): 
return level 


# Alternative 
wrapper.get_level = lambda: level 











一 个 比较 难 理解 的 地 方 就 是 对 于 访问 函数 的 首次 使 用 。 例 如 ， 你 可 能 会 考虑 另外 一 个 方法 
直接 访问 函数 的 属性 ， 如 下 : 








@wraps(func) 

def wrapper(*args, **kwargs): 
wrapper.log.log(wrapper.level, wrapper.logmsg) 
return func(*args, **kwargs) 


# Attach adjustable attributes 
wrapper.level = level 
wrapper.logmsg = logmsg 
wrapper.log = log 











这 个 方法 也 可 能 正常 工作 ， 但 前 提 是 它 必 须 是 最 外 层 的 装饰 器 才 行 。 如 果 它 的 上 面 还 有 
另外 的 装饰 器 (比如 上 面 提 到 的 etimethis 例子 )， 那 么 它 会 隐藏 底层 属性 ， 使 得 修改 它们 
没有 任何 作用 。 而 通过 使 用 访问 函数 就 能 避免 这 样 的 局 限 性 。 








最 后 提 一 点 ， 这 一 小 节 的 方案 也 可 以 作为 9.9 小 节 中 装饰 器 类 的 另 一 种 实现 方法 。 


9.6 带 可 选 参 数 的 装饰 器 





问题 
你 想 写 一 个 装饰 器 ， 既 可 以 不 传 参数 给 它 ， 比如 @decorator ， 也 可 以 传递 可 选 参数 给 


它 ， 比 如 @decorator(x,y,z) 。 


解决 方案 





下 面 是 9.5 小 节 中 日 志 装 饰 器 的 一 个 修改 版 本 : 


from functools import wraps, partial 
import logging 


def logged(func=None, *, level=logging.DEBUG, name=None, message=None): 
if func is None: 
return partial(logged, level=level, name=name, message=message) 


logname = name if name else func. module _ 
log = logging.getLogger(logname) 
logmsg = message if message else func.__name__ 


@wraps(func) 

def wrapper(*args, **kwargs): 
log.log(level, logmsg) 
return func(*args, **kwargs) 


return wrapper 


# Example use 

@logged 

def add(x, y): 
return x + y 


@logged(level=logging.CRITICAL, name='example' ) 
def spam(): 
print('Spam!") 





可 以 看 到 ， @loggea 装饰 器 可 以 同时 不 带 参 数 或 带 参数 。 


Sd 





这 里 提 到 的 这 个 问题 就 是 通常 所 说 的 编程 一 致 性 问题 。 当 我 们 使 用 装饰 器 的 时 候 ， 大 部 
分 程序 员 习惯 了 要 么 不 给 它们 传递 任何 参数 ， 要 么 给 它们 传递 确切 参数 。 其 实 从 技术 上 
来 讲 ， 我 们 可 以 定义 一 个 所 有 参数 都 是 可 选 的 装饰 器 ， 就 像 下 面 这 样 : 

















@logged() 
def add(x, y): 
return x+y 





但 是 ， 这 种 写法 并 不 符合 我 们 的 习惯 ， 有 了 时候 程序 员 忘 记 加 上 后 面 的 括号 会 导致 错误 。 
这 里 我 们 向 你 展示 了 如 何以 一 致 的 编程 风格 来 同时 满足 没有 括号 和 有 括号 两 种 情况 。 





























为 了 理解 代码 是 如 何 工作 的 ， 你 需要 非常 熟悉 装饰 器 是 如 何 作用 到 函数 上 以 及 它们 的 调用 
规则 。 对 于 一 个 像 下 面 这 样 的 简单 装饰 器 : 


# Example use 

@logged 

def add(x, y): 
return x + y 


这 个 调用 序列 跟 下 面 等 价 : 


def add(x, y): 
return x + y 


add = logged(add) 





这 时 候 ， 被 装饰 函数 会 被 当做 第 一 个 参数 直接 传递 给 logged 装饰 器 。 因此 ， logged() 
中 的 第 一 个 参数 就 是 被 包装 函数 本 身 。 所 有 其 他 参数 都 必须 有 默认 值 。 








而 对 于 一 个 下 面 这 样 有 参数 的 装饰 器 : 


@logged(level=logging.CRITICAL, name='example' ) 
def spam(): 
print('Spam!') 


调用 序列 跟 下 面 等 价 : 


def spam(): 
print('Spam!') 
spam = logged(level=logging.CRITICAL, name='example' ) (spam) 








初始 调用 logged) 函数 时 ， 被 包装 函数 并 没有 传递 进来 。 因此 在 装饰 器 内 ， 它 必须 是 可 
选 的 。 这 个 反 过 来 会 迫使 其 他 参数 必须 使 用 关键 字 来 指定 。 并且 ， 但 这 些 参数 被 传递 进 
来 后 ， 装 饰 器 要 返回 一 个 接受 一 个 函数 参数 并 包装 它 的 函数 (参考 9.5 小 节 )。 为 了 这 样 
做 ， 我 们 使 用 了 一 个 技巧 ， 就 是 利用 functools.partial 。 它 会 返回 一 个 未 完全 初始 化 的 
自身 ， 除 了 被 包装 函数 外 其 他 参数 都 已 经 确定 下 来 了 。 可 以 参考 7.8 小 节 获 取 更 多 
partial() 方法 的 知识 。 











9.7 Fl) FA 2X Vi ase o tll PK BE A AS AS a AE 


问题 





作为 某 种 编程 规约 ， 你 想 在 对 函数 参数 进行 强制 类 型 检查 。 





解决 方案 


在 演示 实际 代码 前 ， 先 说 明 我 们 的 目标 : 能 对 函数 参数 类 型 进行 断言 ， 类 似 下 面 这 样 : 


Ņ 


>>> @typeassert(int, int) 
. def add(x, y): 
return x + y 


>>> 
>>> add(2, 3) 
5 
>>> add(2, 'hello') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "contract.py", line 33, in wrapper 
TypeError: Argument y must be <class ‘int'> 
>>> 





下 面 是 使 用 装 饰 器 技术 来 实现 @typeassert : 


from inspect import signature 
from functools import wraps 


def typeassert(*ty_args, **ty_kwargs): 
def decorate(func): 
# If in optimized mode, disable type checking 
if not _debug_: 
return func 


# Map function argument names to supplied types 
sig = signature(func) 
bound_types = sig.bind_partial(*ty_args, **ty_kwargs).arguments 


@wraps(func) 
def wrapper(*args, **kwargs): 
bound_values = sig.bind(*args, **kwargs) 
# Enforce type assertions across supplied arguments 
for name, value in bound_values.arguments.items(): 
if name in bound_types: 
if not isinstance(value, bound_types[name]): 
raise TypeError ( 
"Argument {} must be {}'.format(name, bound_types[name]) 
) 


return func(*args, **kwargs) 
return wrapper 
return decorate 








可 以 看 出 这 个 装饰 器 非常 灵活 ， 既 可 以 指定 所 有 参数 类 型 ， 也 可 以 只 指定 部 分 。 并 且 可 
以 通过 位 置 或 关键 字 来 指定 参数 类 型 。 下 面 是 使 用 示例 : 





>>> @typeassert(int, z=int) 
. def spam(x, y, z=42): 
print(x, y, Zz) 


>>> spam(1, 2, 3) 

12 3 

>>> spam(1, ‘hello', 3) 

1 hello 3 

>>> spam(1, ‘hello', ‘world') 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "contract.py", line 33, in wrapper 
TypeError: Argument z must be <class ‘int'> 
>>> 





这 节 是 高 级 装饰 器 示例 ， 引 入 了 很 多 重要 的 概念 。 








首先 ， 装 饰 器 只 会 在 函数 定义 时 被 调用 一 次 。 有 时 候 你 去 掉 装 饰 器 的 功能 ， 那 么 你 只 需 
要 简单 的 返回 被 装饰 函数 即 可 。 下 面 的 代码 中 ， 如 果 全 局 变量 debus ”被 设置 成 了 
False( 当 你 使 用 -OQ 或 -OO 参数 的 优化 模式 执行 程序 时 )， 那 么 就 直接 返回 未 修改 过 的 函数 
AS 









































def decorate(func): 
# If in optimized mode, disable type checking 
if not _debug_: 
return func 








其 次 ， 这 里 还 对 被 包装 函数 的 参数 签名 进行 了 检查 ， 我 们 使 用 了 inspect.signature() R 
Blo 简单 来 讲 ， 它 运行 你 提取 一 个 可 调用 对 象 的 参数 签名 信息 。 例 如 : 








>>> from inspect import signature 
>>> def spam(x, y, z=42): 
pass 


>>> sig = signature(spam) 

>>> print(sig) 

(x, y, z=42) 

>>> sig.parameters 

mappingproxy(OrderedDict([('x', <Parameter at @x10077a@50 'x'>), 
('y', <Parameter at @x10077a158 'y'>), ('z', <Parameter at @x10077a1b@ 'z'>)])) 
>>> sig.parameters['z'].name 

ig? 

>>> sig.parameters['z'].default 

42 

>>> sig.parameters['z'].kind 

<_ParameterKind: 'POSITIONAL_OR_KEYWORD'> 

>>> 





装饰 器 的 开始 部 分 ， 我 们 使 用 了 bind_partial() 方法 来 执行 从 指定 类 型 到 名 称 的 部 分 绑 
定 。 下 面 是 例子 演示 : 





>>> bound types = sig.bind_partial(int,z=int) 

>>> bound_types 

<inspect.BoundArguments object at 0x10069bb50> 

>>> bound_types.arguments 

OrderedDict([('x', <class ‘int'>), ('z', <class ‘int'>)]) 
>>> 





在 这 个 部 分 绑 定 中 ， 你 可 以 注意 到 缺失 的 参数 被 忽略 了 (比如 并 没有 对 y 进 行 绑 定 )。 不 过 
最 重要 的 是 创建 了 一 个 有 序 字 典 bound_types.arguments 。 这 个 字典 会 将 参数 名 以 函数 签 
名 中 相同 顺序 映射 到 指定 的 类 型 值 上 面 去 。 在 我 们 的 装饰 器 例子 中 ， 这 个 映射 包含 了 我 
们 要 强制 指定 的 类 型 断言 。 




















在 装饰 器 创建 的 实际 包装 函数 中 使 用 到 了 sig.bind() 方法 。 bind() 跟 bind_partial() 
类 似 ， 但 是 它 不 允许 忽略 任何 参数 。 因 此 有 了 下 面 的 结 


>>> bound_values = sig.bind(1, 2, 3) 

>>> bound_values.arguments 
OrderedDict([('x', 1), ('y', 2), ('z', 3)]) 
>>> 





使 用 这 个 映射 我 们 可 以 很 轻松 的 实现 我 们 的 强制 类 型 检查 : 


>>> for name, value in bound_values.arguments.items(): 
if name in bound_types.arguments: 
if not isinstance(value, bound_types.arguments[name]): 
raise TypeError() 








AWK AT RLA RV) BOR, EXt FAVES NEN. 比如 下 面 的 代码 可 以 正 
常 工 作 ， 尽 管 items 的 类 型 是 错误 的 : 





>>> @typeassert(int, list) 
. def bar(x, items=None): 
if items is None: 
items = [] 
items.append(x) 
7 return items 
>>> bar(2) 
[2] 
>>> bar(2,3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "contract.py", line 33, in wrapper 
TypeError: Argument items must be <class 'list'> 
>>> bar(4, [1, 2, 3]) 
[1, 2, 3, 4] 
>>> 














最 后 一 点 是 关于 适用 装饰 器 参数 和 函数 注解 之 间 的 争论 。 例 如 ， 为 什么 不 像 下 面 这 样 写 
一 个 装饰 器 来 查找 函数 中 的 注解 呢 ? 








@typeassert 
def spam(x:int, y, z:int = 42): 
print(x,y,Z) 











一 个 可 能 的 原因 是 如 果 使 用 了 函数 参数 注解 ， 那 么 就 被 限制 了 。 如 果 注 解 被 用 来 做 类 型 
检查 就 不 能 做 其 他 事情 了 。 而 且 @typeassert 不 能 再 用 于 使 用 注解 做 其 他 事情 的 函数 了 。 
而 使 用 上 面 的 装饰 器 参数 灵活 性 大 多 了 ， 也 更 加 通用 。 








可 以 在 PEP 362 以 及 inspect 模块 中 找到 更 多 关于 函数 参数 对 象 的 信息 。 在 9.16 小 节 还 有 
Fats 


9.8 44 25 Ui as E XARA — Ba 


问题 





你 想 在 类 中 定义 装饰 器 ， 并 将 其 作用 在 其 他 函数 或 方法 上 。 





在 类 里 面 定义 装饰 器 很 简单 ， 但 是 你 首先 要 确认 它 的 使 用 方式 。 比 如 到 底 是 作为 一 个 实例 
方法 还 是 类 方法 。 下 面 我 们 用 例子 来 阐述 它们 的 不 同 : 





from functools import wraps 


class A: 
# Decorator as an instance method 
def decorator1(self, func): 
@wraps(func) 
def wrapper(*args, **kwargs): 
print( ‘Decorator 1') 
return func(*args, **kwargs) 
return wrapper 


# Decorator as a class method 
@classmethod 
def decorator2(cls, func): 
@wraps(func) 
def wrapper(*args, **kwargs): 
print('Decorator 2') 
return func(*args, **kwargs) 
return wrapper 


下 面 是 一 使 用 例子 : 


# As an instance method 
a = A() 
@a.decorator1 
def spam(): 
pass 
# As a class method 
@A.decorator2 
def grok(): 
pass 


仔细 观察 可 以 发 现 一 个 是 实例 调用 ， 一 个 是 类 调用 。 


讨论 











在 类 中 定义 装饰 器 初 看 上 去 好 像 很 奇怪 ， 但 是 在 标准 库 中 有 很 多 这 样 的 例子 。 特别 
的 ， @property 装饰 器 实际 上 是 一 个 类 ， 它 里 面 定义 了 三 个 方法 
getter(), setter(), deleter() ,每 一 个 方法 都 是 一 个 装饰 器 。 例如 : 











class Person: 
# Create a property instance 
first_name = property() 


# Apply decorator methods 

@first_name.getter 

def first_name(self): 
return self. first_name 


@first_name.setter 
def first_name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string’) 
self. first name = value 














它 为 什么 要 这 么 定义 的 主要 原因 是 各 种 不 同 的 装饰 器 方法 会 在 关联 的 property 实例 上 操 
作 它 的 状态 。 因 此 ， 任 何 时 候 只 要 你 碰 到 需要 在 装饰 器 中 记录 或 绑 定 信息 ， 那 么 这 不 失 
为 一 种 可 行 方法 。 











在 类 中 定义 装饰 器 有 个 难 理解 的 地 方 就 是 对 于 额外 参数 seif 或 cis 的 正确 使 用 。 尽 管 
最 外 层 的 装饰 器 函数 比如 decorator1() 或 decorator2() 需要 提供 一 个 self 或 cls EB 
数 ， 但 是 在 两 个 装饰 器 内 部 被 创建 的 wrapper() 函数 并 不 需要 包含 这 个 seit BR. MR 
唯一 需要 这 个 参数 是 在 你 确实 要 访问 包装 器 中 这 个 实例 的 某 些 部 分 的 时 候 。 其 他 情况 下 都 
PHARE Eo 
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你 想 让 在 A 中 定义 的 装饰 器 作用 在 子 类 B 中 。 你 需要 像 下 面 这 样 写 : 


class B(A): 
@A.decorator2 


def 


bar(self): 
pass 





也 就 是 说 ， 装 饰 器 要 被 定义 成 类 方法 并 且 你 必须 显 式 的 使 用 父 类 名 去 调用 它 。 你 不 能 使 
用 @B.decorator2 ， 因为 在 方法 定义 时 ， 这 个 类 B 还 没有 被 创建 。 


9.9 将 装饰 右 定 义 为 类 


问题 


UAE FN 











器 可 以 同时 工作 在 类 定义 的 内 部 和 外 部 。 





为 了 将 装饰 器 定义 成 一 个 实例 ， 你 需要 确保 它 实 现 了 
如 ， 下 面 的 代码 定义 了 一 个 类 ， 它 在 其 他 函数 上 放置 一 个 简单 的 记录 层 : 


import types 


from functools import wraps 


class Profiled: 


def 


def 


def 


__init__(self, func): 
wraps(func) (self) 
self.ncalls = 6 


__call__(self, *args, **kwargs): 
self.ncalls += 1 
return self. wrapped _(*args, **kwargs) 
__get__(self, instance, cls): 
if instance is None: 

return self 
else: 


return types.MethodType(self, instance) 








饰 器 去 包 六 函数， 但 是 希望 返回 一 个 可 调用 的 实例 。 你 需要 让 你 的 装饰 


cali () 和 __get_() 方法 。 例 


你 可 以 将 它 当 做 一 个 普通 的 装饰 器 来 使 用 ， 在 类 里 面 或 外 面 都 可 以 : 


@Profiled 
def add(x, y): 
return x + y 


class 


Spam: 


@Profiled 
def bar(self, x): 


print(self, x) 


在 交互 环境 中 的 使 用 示例 : 


>>> add(2, 3) 


>>> add(4, 5) 


>>> add.ncalls 


>>> Ss 
222 .5 


= Spam() 


.bar(1) 


<__main__.Spam object at @x19@69e9d@> 1 


>>> S 


.bar(2) 


<__main__.Spam object at @x19@69e9d@> 2 


>>> S 


.bar(3) 


<__main__.Spam object at 6x16669e9d6> 3 
>>> Spam.bar.ncalls 


3 





将 装饰 器 定义 成 类 通 第 是 很 简单 的 。 但 是 这 里 还 是 有 一 些 细节 需要 解释 下 ， 特 别 是 当 你 想 
将 它 作 用 在 实例 方法 上 的 时 候 。 


首先 ， 使 用 functools.wraps() 函数 的 作用 跟 之 前 还 是 一 样 ， 将 被 包装 函数 的 元 信息 复 什 


到 可 调用 实例 中 去 。 











3 





其 次 ， 通 常 很 容易 会 忽视 上 面 的 set O 方法 。 如 果 你 忽略 它 ， 保 持 其 他 代码 不 变 再 次 


运行 ， 


>>> S 
>>> S 





你 会 发 现 当 你 去 调用 被 装饰 实例 方法 时 出 现 很 奇怪 的 问题 。 


= Spam() 


.bar(3) 


Traceback (most recent call last): 


TypeError: bar() missing 1 required positional argument: 'x' 


例如 : 


出 错 原因 是 当 方 法 函数 在 一 个 类 中 被 查找 时 ， 它 们 的 eet O 方法 依据 描述 器 协议 被 调 
用 ， 在 8.9 小 节 已 经 讲述 过 描述 器 协议 了 。 在 这 里 ， gt O 的 目的 是 创建 一 个 绑 定 方 
法 对 象 (最 终 会 给 这 个 方法 传递 self 参 数 )。 下 面 是 一 个 例子 来 演示 底层 原理 : 

















>>> S = Spam() 
>>> def grok(self, x): 
pass 


>>> grok. get (s, Spam) 
<bound method Spam.grok of <__main__.Spam object at 0x100671e90>> 
>>> 


__get__() 方法 是 为 了 确保 绑 定 方法 对 象 能 被 正确 的 创建 。 type.MethodType() 手动 创建 
一 个 绑 定 方法 来 使 用 。 只 有 当 实 例 被 使 用 的 时 候 绑 定 方法 才 会 被 创建 。 如 果 这 个 方法 是 
在 类 上 面 来 访问 ， 那 么 _get_() 中 的 instance 参 数 会 被 设置 成 None 并 直接 返回 
Profiled 实例 本 身 。 这 样 的 话 我 们 就 可 以 提取 它 的 ncalls 属性 了 。 








如 果 你 想 避 免 一 些 混乱 ， 也 可 以 考虑 另外 一 个 使 用 闭 包 和 | nonlocal 变量 实现 的 装饰 器 ， 
这 个 在 9.5 小 节 有 讲 到 。 例 如 : 


import types 
from functools import wraps 


def profiled(func): 
ncalls = @ 
@wraps(func) 
def wrapper(*args, **kwargs): 
nonlocal ncalls 
ncalls += 1 
return func(*args, **kwargs) 
wrapper.ncalls = lambda: ncalls 
return wrapper 


# Example 

@profiled 

def add(x, y): 
return x + y 








这 个 方式 跟 之 前 的 效果 几乎 一 样 ， 除 了 对 于 ncalls 的 访问 现在 是 通过 一 个 被 绑 定 为 属性 
的 函数 来 实现 ， 例 如 : 


>>> add(2, 3) 

5 

>>> add(4, 5) 

9 

>>> add.ncalls() 
2 

>>> 


9.10 AR Fil if aS A IA he RR MN a 
问题 


你 想 给 类 或 静态 方法 提供 装饰 器 。 





给 类 或 静态 方法 提供 装饰 器 是 很 简单 的 ， 不 过 要 确保 装饰 器 在 @classmethod 或 
@staticmethod 之 前 。 例 如 : 


import time 
from functools import wraps 


# A simple decorator 
def timethis(func): 
@wraps(func) 
def wrapper(*args, **kwargs): 
start = time.time() 
r = func(*args, **kwargs) 
end = time.time() 
print(end-start) 
return r 
return wrapper 


# Class illustrating application of the decorator to different kinds of methods 
class Spam: 
@timethis 
def instance_method(self, n): 
print(self, n) 
while n > @: 
n -= 


@classmethod 
@timethis 
def class_method(cls, n): 
print(cls, n) 
while n > @: 
n -= 


@staticmethod 
@timethis 
def static_method(n): 
print(n) 
while n > @: 
n -= 


ie 





装饰 后 的 类 和 静态 方法 可 正常 工作 ， 只 不 过 增加 了 额外 的 计时 功能 : 


>>> S = Spam() 

>>> s.instance_method(1000000) 
<__main__.Spam object at @x1@06a6050> 1000000 
Q@.11817407608032227 

>>> Spam.class_method(1000000) 
<class '__main__.Spam'> 1000000 
0@.11334395408630371 

>>> Spam.static_method(1000000) 
1000000 

@.11740279197692871 

>>> 


讨论 





如 果 你 把 装饰 器 的 顺序 写 错 了 就 会 出 错 。 例 如 ， 假 设 你 像 下 面 这 样 写 : 


class Spam: 
@timethis 
@staticmethod 
def static_method(n): 
print(n) 
while n > @: 
n -= 1 


那么 你 调用 这 个 镜头 方法 时 就 会 报错 : 


>>> Spam.static_method(1000000) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "timethis.py", line 6, in wrapper 

start = time.time() 

TypeError: ‘staticmethod' object is not callable 
>>> 


问题 在 于 @classmethod JH @staticmethod 实际 上 并 不 会 创建 可 直接 调用 的 对 象 ， 而 是 创 
建 特殊 的 描述 器 对 象 (参考 8.9 小 节 )。 因 此 当 你 试 着 在 其 他 装饰 器 中 将 它们 当做 函数 来 使 用 
时 就 会 出 错 。 确保 这 种 装饰 器 出 现在 装饰 器 链 中 的 第 一 个 位 置 可 以 修复 这 个 问题 。 











当 我 们 在 抽象 基 类 中 定义 类 方法 和 静态 方法 (参考 8.12 小 节 ) 时 ， 这 里 讲 到 的 知识 就 很 有 用 
了 。 例 如， 如果 你 想 定义 一 个 抽象 类 方法 ， 可 以 使 用 类 似 下 面 的 代码 : 


from abc import ABCMeta，abstractmethod 
class A(metaclass=ABCMeta): 
@classmethod 
@abstractmethod 
def method(cls): 
pass 


在 这 段 代 码 中 ， @classmethod FR @abstractmethod 两 者 的 顺序 是 有 讲究 的 ， 如 果 你 调换 它 
们 的 顺序 就 会 出 错 。 


9.11 沪 饰 占 为 被 包 六 函数 增加 参数 


问题 





你 想 在 装饰 器 中 给 被 包装 函数 增加 额外 的 参数 ， 但 是 不 能 影响 这 个 函数 现 有 的 调用 规则 。 


解决 方案 











可 以 使 用 关键 字 参 数 来 给 被 包装 函数 增加 额外 参数 。 考 虑 下 面 的 装饰 器 : 


from functools import wraps 


def optional_debug(func): 
@wraps(func) 
def wrapper(*args, debug=False, **kwargs): 
if debug: 
print('Calling', func. _name_) 
return func(*args, **kwargs) 


return wrapper 


>>> @optional_ debug 
. def spam(a,b,c): 
. print(a,b,c) 


>>> spam(1,2,3) 

12:3 

>>> spam(1,2,3, debug=True) 
Calling spam 

1,2: 3 

>>> 





通过 装饰 器 来 给 被 包装 函数 增加 参数 的 做 法 并 不 常见 。 尽 管 如 此 ， 有 时 候 它 可 以 避免 一 
些 重复 代码 。 例 如 ， 如 果 你 有 下 面 这 样 的 代码 : 





def a(x, debug=False): 
if debug: 
print('Calling a') 


def b(x, y, z, debug=False): 
if debug: 
print('Calling b') 


def c(x, y, debug=False): 
if debug: 
print('Calling c') 


那么 你 可 以 将 其 重 构 成 这 样 : 


from functools import wraps 
import inspect 


def optional_debug(func): 
if ‘debug' in inspect.getargspec(func).args: 
raise TypeError('debug argument already defined’ ) 


@wraps(func) 
def wrapper(*args, debug=False, **kwargs): 
if debug: 
print('Calling', func. name ) 
return func(*args, **kwargs) 
return wrapper 


@optional_debug 
def a(x): 
pass 


@optional_debug 
def b(x, y, z): 
pass 


@optional_debug 
def c(x, y): 
pass 











这 种 实现 方案 之 所 以 行 得 通 ， 在 于 强制 关键 字 参 数 很 容易 被 添加 到 接受 *args 和 
**kwargs 参数 的 函数 中 。 通 过 使 用 强制 关键 字 参 数 ， 它 被 作为 一 个 特殊 情况 被 挑选 出 
来 ， 并 且 接 下 来 仅仅 使 用 剩余 的 位 置 和 关键 字 参 数 去 调用 这 个 函数 时 ， 这 个 特殊 参数 会 
被 排除 在 外 。 也 就 是 说 ， 它 并 不 会 被 纳入 到 **kwargs PH. 























还 有 一 个 难点 就 是 如 何 去 处 理 被 添加 的 参数 与 被 包装 函数 参数 直接 的 名 字 冲 突 。 例如 ， 
如 果 装 饰 器 @optional_debug 作用 在 一 个 已 经 拥有 一 个 debus 参数 的 函数 上 时 会 有 问题 。 
这 里 我 们 增加 了 一 步 名 字 检 查 。 


























上 面 的 方案 还 可 以 更 完美 一 点 ， 因 为 精明 的 程序 员 应 该 发 现 了 被 包装 函数 的 函数 签名 其 实 
是 错误 的 。 例 如 : 


>>> @optional_ debug 
. def add(x,y): 
return x+y 


>>> import inspect 
>>> print(inspect.signature(add) ) 


(x, y) 
>>> 


通过 如 下 的 修改 ， 可 以 解决 这 个 问题 : 


from functools import wraps 
import inspect 


def optional_debug(func): 
if ‘debug' in inspect.getargspec(func).args: 
raise TypeError('debug argument already defined’ ) 


@wraps (func) 
def wrapper(*args, debug=False, **kwargs): 
if debug: 
print('Calling', func. name ) 
return func(*args, **kwargs) 


sig = inspect.signature(func) 

parms = list(sig.parameters.values()) 

parms.append(inspect.Parameter('debug', 
inspect.Parameter.KEYWORD_ONLY, 
default=False) ) 

wrapper. _Signature__ = sig.replace(parameters=parms) 

return wrapper 





通过 这 样 的 修改 ， 包 装 后 的 函数 签名 就 能 正确 的 显示 debug 参数 的 存在 了 。 例 如 : 


>>> @optional_ debug 
. def add(x,y): 
return x+y 


>>> print(inspect.signature(add) ) 
(x, y, *, debug=False) 

>>> add(2,3) 

5 

>>> 


参考 9.16 小 节 获取 更 多 关于 函数 签名 的 信息 。 
9.12 使 用 装饰 器 扩充 类 的 功能 
问题 


你 想 通过 反省 或 者 重 写 类 定义 的 某 部 分 来 修改 它 的 行为 ， 但 是 你 又 不 希望 使 用 继承 或 元 类 
的 方式 。 


解决 方案 





这 种 情况 可 能 是 类 装饰 器 最 好 的 使 用 场景 了 。 例 如 ， 下 面 是 一 个 重 写 了 特殊 方法 
__getattribute ”的 类 装饰 器 ， 可 以 打印 日 志 : 








def log getattribute(cls): 
# Get the original implementation 
orig getattribute = cls. getattribute__ 


# Make a new definition 

def new_getattribute(self, name): 
print('getting:', name) 
return orig getattribute(self, name) 


# Attach to the class and return 
cls.__getattribute__ = new_getattribute 
return cls 


# Example use 
@log_getattribute 
class A: 
def __init__(self,x): 
self.x = x 
def spam(self): 
pass 


下 面 是 使 用 效果 : 


>>> a = A(42) 
>>> a.x 
getting: x 

42 

>>> a.spam() 
getting: spam 
>>> 


讨论 





类 装饰 器 通常 可 以 作为 其 他 高 级 技术 比如 混入 或 元 类 的 一 种 非常 简洁 的 蔡 代 方 案 。 比 
如 ， 上 面 示例 中 的 另外 一 种 实现 使 用 到 继承 : 


class LoggedGetattribute: 
def __getattribute__(self, name): 
print('getting:', name) 
return super().__getattribute__ (name) 


# Example: 
class A(LoggedGetattribute): 
def __init__(self,x): 
self.x = x 
def spam(self): 
pass 

















这 种 方案 也 行 得 通 ， 但 是 为 了 去 理解 它 ， 你 就 必须 知道 方法 调用 顺序 、 super() 以 及 其 它 
8.7 小 节 介绍 的 继承 知识 。 某 种 程度 上 来 讲 ， 类 装饰 器 方案 就 显得 更 加 直观 ， 并 且 它 不 会 
引入 新 的 继承 体系 。 它 的 运行 速度 也 更 快 一 些 ， 因为 他 并 不 依赖 supero 函数 。 











如 果 你 系 想 在 一 个 类 上 面 使 用 多 个 类 装饰 器 ， 那 么 就 需要 注意 下 顺序 问题 。 例如， 一 个 
装饰 器 A 会 将 其 装饰 的 方法 完整 替换 成 另 一 种 实现 ， 而 另 一 个 装饰 器 B 只 是 简单 的 在 其 装 
饰 的 方法 中 添加 点 额外 逻辑 。 那么 这 时 候 装 饰 器 A 就 需要 放 在 装饰 器 B 的 前 面 。 








你 还 可 以 回顾 一 下 8.13 小 节 另 外 一 个 关于 类 装饰 器 的 有 用 的 例子 。 
9.13 使 用 元 类 控制 实例 的 创建 
问题 


你 想 通 过 改变 实例 创建 方式 来 实现 单 例 、 绥 存 或 其 他 类 似 的 特性 。 


解决 方案 


Python 程序 员 都 知道 ， 如 果 你 定义 了 一 个 类 ， 就 能 像 函 数 一 样 的 调用 它 来 创建 实例 ， 例 
如 : 


class Spam: 
def __init__(self, name): 
self.name = name 


Spam('Guido') 
Spam('Diana' ) 


如 果 你 想 自 定 义 这 个 步骤 ， 你 可 以 定义 一 个 元 类 并 自己 实现 _call_() 方法 。 


为 了 演示 ， 假 设 你 不 想 任 何人 创建 这 个 类 的 实例 : 


class NoInstances(type): 
def _call__(self, *args, **kwargs): 
raise TypeError("Can't instantiate directly") 


# Example 
class Spam(metaclass=NoInstances): 
@staticmethod 
def grok(x): 
print('Spam.grok' ) 


这 样 的 话 ， 用 户 只 能 调用 这 个 类 的 静态 方法 ， 而 不 能 使 用 通常 的 方法 来 创建 它 的 实例 。 例 
如 : 


>>> Spam.grok(42) 
Spam. grok 
>>> S = Spam() 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "“example1.py", line 7, in _ call _ 

raise TypeError("Can't instantiate directly") 

TypeError: Can't instantiate directly 
>>> 





现在 ， 假 如 你 想 实现 单 例 模式 《只 能 创建 唯一 实例 的 类 ) ， 实 现 起 来 也 很 简单 : 


class Singleton(type): 


def 


def 


__init__(self, *args, **kwargs): 


self. _ instance = None 
super().__init__(*args, **kwargs) 


__call__ (self, *args, **kwargs): 


if self. instance is None: 


self.__ instance = super().__call__(*args, **kwargs) 


return self. _instance 
else: 
return self. instance 


# Example 
class Spam(metaclass=Singleton): 
def __init__(self): 
print('Creating Spam') 


那么 Spa 


>>> a = Spam() 
Creating Spam 
>>> b = Spam() 
>>> a is b 
True 

>>> C = Spam() 
>>> a isc 
True 

>>> 


最 后 ， 假 设 你 想 创建 8.25 小 节 中 那样 的 缓存 实例 。 


m 类 就 只 能 创建 唯一 的 实例 了 ， 演 示 如 下 : 





下 面 我 们 可 以 通 


过 


元 类 来 实现 : 


import weakref 


class Cached(type): 
def __init__(self, *args, **kwargs): 
super().__init__(*args, **kwargs) 
self. _ cache = weakref.WeakValueDictionary() 


def __call__(self, *args): 
if args in self. cache: 
return self. _cache[args ] 
else: 
obj = super().__call__(*args) 
self.__cache[args] = obj 
return obj 


# Example 
class Spam(metaclass=Cached): 
def __init__(self, name): 
print( ‘Creating Spam({!r})'.format(name) ) 
self.name = name 





然后 我 也 来 测试 一 下 : 


>>> a = Spam('Guido') 

Creating Spam('Guido' ) 

>>> b = Spam('Diana') 

Creating Spam('Diana’' ) 

>>> cC = Spam('Guido') # Cached 

>>> a is b 

False 

>>> a is c # Cached value returned 
True 

>>> 


讨论 


利用 元 类 实现 多 种 实例 创建 模式 通常 要 比 不 使 用 元 类 的 方式 优雅 得 多 。 





假设 你 不 使 用 元 类 ， 你 可 能 需要 将 类 隐藏 在 某 些 工厂 函数 后 面 。 比如 为 了 实现 一 个 单 
例 ， 你 你 可 能 会 像 下 面 这 样 写 : 


class _Spam: 
def __init__(self): 
print('Creating Spam') 


_spam_instance = None 


def Spam(): 
global _spam_instance 


if _spam_instance is not None: 
return _spam_instance 
else: 
_Spam_instance = _Spam() 
return _spam_instance 


尽管 使 用 元 类 可 能 会 涉及 到 比较 高 级 点 的 技术 ， 但 是 它 的 代码 看 起 来 会 更 加 简洁 舒服 ， 而 
且 也 更 加 直观 。 


更 多 关于 创建 缓存 实例 、 弱 引用 等 内 容 ， 请 参考 8.25 小 节 。 
9.14 捕获 类 的 属性 定义 顺序 
问题 


你 想 自动 记录 一 个 类 中 属性 和 方法 定义 的 顺序 ， 然 后 可 以 利用 它 来 做 很 多 操作 (比如 序 
列 化 、 映 射 到 数据 库 等 等 )。 


利用 元 类 可 以 很 容易 的 捕获 类 的 定义 信息 。 下 面 是 一 个 例子 ， 使 用 了 一 个 OrderedDict 来 
记录 描述 器 的 定义 顺序 : 








from collections import OrderedDict 


# A set of descriptors for various types 
class Typed: 
_expected_type = type(None) 
def __init__(self, name=None): 
self. name = name 


def __set__(self, instance, value): 
if not isinstance(value, self. _expected_type): 
raise TypeError('Expected ' + str(self._expected_type) ) 
instance. dict [self. name] = value 


class Integer(Typed): 
_expected_type = int 


class Float(Typed): 
_expected_type = float 


class String(Typed): 
_expected_type = str 


# Metaclass that uses an OrderedDict for class body 
class OrderedMeta(type): 
def __new__(cls, clsname, bases, clsdict): 
d = dict(clsdict) 
order = [] 
for name, value in clsdict.items(): 
if isinstance(value, Typed): 
value._name = name 
order.append(name) 
d['_order'] = order 
return type.__new__(cls, clsname, bases, d) 


@classmethod 
def __prepare__(cls, clsname, bases): 
return OrderedDict() 


在 这 个 元 类 中 ， 执 行 类 主体 时 描述 器 的 定义 顺序 会 被 一 个 

orderedDict、 捕 获 到 ， 生成 的 有 序 名称 从 字典 中 提取 出 来 并 放 入 类 属性 order 中 。 这 样 的 话 类 中 的 
方法 可 以 通过 多 种 方式 来 使 用 它 。 例 如 ， 下 面 是 一 个 简单 的 类 ， 使 用 这 个 排序 字典 来 实 
现 将 一 个 类 实例 的 数据 序列 化 为 一 行 CSV 数 据 : 





























class Structure(metaclass=OrderedMeta) : 
def as_csv(self): 
return ','.join(str(getattr(self,name)) for name in self._order) 


# Example use 

class Stock(Structure): 
name = String() 
shares = Integer() 
price = Float() 


def __init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


我 们 在 交互 式 环境 中 测试 一 下 这 个 Stock 类 : 


>>> s = Stock('GOOG',100,490.1) 
>>> S.name 
"GOOG" 
>>> S.as_csv() 
"GOOG, 100,490.1' 
>>> 七 = Stock('AAPL','a lot', 610.23) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "dupmethod.py", line 34, in __init _ 
TypeError: shares expects <class ‘int'> 
>>> 


讨论 





本 节 一 个 关键 点 就 是 OrderedMeta 元 类 中 定义 的 _prepare_()` 方 法。 这 个 方法 会 在 开 

定义 类 和 它 的 父 类 的 时 候 被 执行 。 它 必须 返回 一 个 映射 对 象 以 便 在 类 定义 体 中 被 使 用 
到 。 我 们 这 里 通过 返回 了 一 个 OrderedDict 而 不 是 一 个 普通 的 字典 ， 可 以 很 容易 的 捕获 定 
义 的 顺序 。 

















如 果 你 想 构 造 自己 的 类 字典 对 象 ， 可 以 很 容易 的 扩展 这 个 功能 。 比 如 ， 下 面 的 这 个 修改 方 
案 可 以 防止 重复 的 定义 : 


from collections import OrderedDict 


class NoDupOrderedDict(OrderedDict): 

def __init__(self, clsname): 
self.clsname = clsname 
super().__init__() 

def __setitem__(self, name, value): 
if name in self: 

raise TypeError('{} already defined in {}'.format(name, self.clsname) ) 

super().__setitem__(name, value) 


class OrderedMeta(type): 
def __new__(cls, clsname, bases, clsdict): 
d = dict(clsdict) 
d['_order'] = [name for name in clsdict if name[@] != '_'] 
return type.__new__(cls, clsname, bases, d) 


@classmethod 
def __prepare__(cls, clsname, bases): 
return NoDupOrderedDict(clsname) 


下 面 我 们 测试 重复 的 定义 会 出 现 什么 情况 : 


>>> class A(metaclass=OrderedMeta) : 
. def spam(self): 
. pass 
. def spam(self): 
. pass 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in A 
File "dupmethod2.py", line 25, in __setitem__ 
(name, self.clsname) ) 
TypeError: spam already defined in A 
>>> 

















最 后 还 有 一 点 很 重要 ， 就 是 在 _ new_() 方法 中 对 于 元 类 中 被 修改 字典 的 处 理 。 尽管 类 


使 用 了 另外 一 个 字典 来 定义 ， 在 构造 最 终 的 class 对 象 的 时 候 ， 我 们 仍然 需要 将 这 个 字 
典 转 换 为 一 个 正确 的 dict 实例 。 通 过 语句 d = dict(clsdict) 来 完成 这 个 效果 。 








对 于 很 多 应 用 程序 而 已 ， 能 够 捕获 类 定义 的 顺序 是 一 个 看 似 不 起 眼 却 又 非常 重要 的 特性 。 
例如 ， 在 对 象 关系 映射 中 ， 我 们 通常 会 看 到 下 面 这 种 方式 定义 的 类 : 





class Stock(Model): 
name = String() 
shares = Integer() 
price = Float() 


在 框架 底层 ， 我 们 必须 捕获 定义 的 顺序 来 将 对 象 映 射 到 元 组 或 数据 库 表 中 的 行 〈 就 类 似 于 
上 面 例子 中 的 as_csv() 的 功能 ) 。 这 节 演 示 的 技术 非常 简单 ， 并 且 通 常会 比 其 他 类 似 方 
法 通常 都 要 在 描述 器 类 中 维护 一 个 隐藏 的 计数 器 〉 要 简单 的 多 。 








9.15 定义 有 可 选 参数 的 元 类 
问题 


你 想 定 义 一 个 元 类 ， 人 允许 类 定义 时 提供 可 选 参数 ， 这 样 可 以 控制 或 配置 类 型 的 创建 过 程 


mm. 
o 








在 定义 类 的 时 候 ，Python 人 允许 我 们 使 用 “metaclass` 关键 字 参 数 来 指定 特定 的 元 类 。 例如 
使 用 抽象 基 类 : 


from abc import ABCMeta, abstractmethod 
class IStream(metaclass=ABCMeta): 
@abstractmethod 
def read(self, maxsize=None): 
pass 


@abstractmethod 


def write(self, data): 
pass 


然而 ， 在 自 定义 元 类 中 我 们 还 可 以 提供 其 他 的 关键 字 参 数 ， 如 下 所 示 : 


class Spam(metaclass=MyMeta, debug=True, synchronize=True): 
pass 








为 了 使 元 类 支持 这 些 关 键 字 参数 ， 你 必须 确保 在 __prepare_() , __new__() 和 
int 0 方法 中 都 使 用 强制 关键 字 参 数 。 就 像 下 面 这 样 : 





class MyMeta(type): 
# Optional 
@classmethod 
def __prepare__(cls, name, bases, *, debug=False, synchronize=False): 
# Custom processing 
pass 
return super().__prepare__(name, bases) 


# Required 

def __new__(cls, name, bases, ns, *, debug=False, synchronize=False): 
# Custom processing 
pass 
return super().__new__(cls, name, bases, ns) 


# Required 

def __init__(self, name, bases, ns, *, debug=False, synchronize=False): 
# Custom processing 
pass 
super().__init__(name, bases, ns) 


讨论 


给 一 个 元 类 添加 可 选 关 键 字 参数 需要 你 完全 弄 懂 类 创建 的 所 有 步骤 ， 因 为 这 些 参数 会 被 
传递 给 每 一 个 相关 的 方法 。 __prepare__() 方法 在 所 有 类 定义 开始 执行 前 首先 被 调用 ， 用 
来 创建 类 命名 空间 。 通常 来 讲 ， 这 个 方法 只 是 简单 的 返回 一 个 字典 或 其 他 映射 对 象 。 
new O 方法 被 用 来 实例 化 最 终 的 类 对 象 。 它 在 类 的 主体 被 执行 完 后 开始 执行 。 
int O 方法 最 后 被 调用 ， 用 来 执行 其 他 的 一 些 初始 化 工作 。 








当 我 们 构造 元 类 的 时 候 ， 通 常 只 需要 定义 一 个 _new_() 或 init O 方法 ， 但 不 是 两 
个 都 定义 。 但 是 ， 如 果 需 要 接受 其 他 的 关键 字 参 数 的 话 ， 这 两 个 方法 就 要 同时 提供 ， 并 
且 都 要 提供 对 应 的 参数 签名 。 默认 的 __prepare_() 方法 接受 任意 的 关键 字 参 数 ， 但 是 会 
忽略 它们 ， 所 以 只 有 当 这 些 额 外 的 参数 可 能 会 影响 到 类 命名 空间 的 创建 时 你 才 需 要 去 定 
X __prepare_() 方法 。 

















通过 使 用 强制 关键 字 参 数 ， 在 类 的 创建 过 程 中 我 们 必须 通过 关键 字 来 指定 这 些 参数 。 





使 用 关键 字 参 数 配 置 一 个 元 类 还 可 以 视 作 对 类 变量 的 一 种 替代 方式 。 例 如 : 


class Spam(metaclass=MyMeta): 
debug = True 
synchronize = True 
pass 








将 这 些 属性 定义 为 参数 的 好 处 在 于 它们 不 会 污染 类 的 名 称 空间 ， 这些 属性 仅仅 只 从 属于 
类 的 创建 阶段 ， 而 不 是 类 中 的 语句 执行 阶段 。 另 外 ， 它 们 在 _prepare_() 方法 中 是 可 以 
被 访问 的 ， 因 为 这 个 方法 会 在 所 有 类 主体 执行 前 被 执行 。 但 是 类 变量 只 能 在 元 类 的 
_new_() 和 init O 方法 中 可 见 。 
































9.16 *args 和 **kwargs 的 强制 参数 签名 
问题 


你 有 一 个 函数 或 方法 ， 它 使 用 "args 和 ”kwargs 作 为 参数 ， 这 样 使 得 它 比 较 通用 ， 但 有 时 
候 你 想 检 查 传递 进来 的 参数 是 不 是 某 个 你 想 要 的 类 型 。 


对 任何 涉及 到 操作 函数 调用 签名 的 问题 ， 你 都 应 该 使 用 inspect 模块 中 的 签名 特性 。 我 
们 最 主要 关注 两 个 类 : Signature 和 parameter 。 下 面 是 一 个 创建 函数 前 面 的 交互 例子 : 





>>> from inspect import Signature, Parameter 

>>> # Make a signature for a func(x, y=42, *, z=None) 

>>> parms = [ Parameter('x', Parameter.POSITIONAL_OR_KEYWORD), 
Parameter('y', Parameter.POSITIONAL_OR_KEYWORD, default=42), 
Parameter('z', Parameter.KEYWORD_ONLY, default=None) ] 

>>> sig = Signature(parms) 

>>> print(sig) 

(x, y=42, *, z=None) 


一 旦 你 有 了 一 个 签名 对 象 ， 你 就 可 以 使 用 它 的 bindo 方法 很 容易 的 将 它 绑 定 到 *args 和 
**kwargs ERs 下 面 是 一 个 简单 的 演示 : 


>>> def func(*args, **kwargs): 


bound_values = sig.bind(*args, **kwargs) 


for name, value in 


bound_values.arguments.items(): 


print (name, value) 


>>> # Try various examples 
>>> func(1; 2; z=3) 
x 1 

y 2 

z 3 

>>> func(1) 

> ope | 

>>> func(1, z=3) 

x 1 

Z3 

>>> func(y=2, x=1) 

x 1 

y 2 

>>> func(h,. 2; 3; 4) 


Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect.py", line 1972, in _bind 
raise TypeError('too many positional arguments') 


TypeError: too many positional arguments 


>>> func(y=2) 


Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect.py", line 1961, in _bind 
raise TypeError(msg) from None 


TypeError: 'x' parameter lacking default value 


>>> func(1, y=2, x=3) 


Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect.py", line 1985, in _bind 
"{arg!r}'.format(arg=param.name) ) 


TypeError: multiple values 
>>> 


for argument 'x 





可 以 看 出 来 ， 通 过 将 签名 和 传递 的 参数 绑 定 起 来 ， 可 以 强制 函数 调用 遵循 特定 的 规则 ， 比 


如 必 填 、 默 认 、 重 复 等 等 。 








下 面 是 一 个 强制 函数 签名 更 : 


具体 的 例子 。 在 代码 中 ， 我 们 在 基 类 中 先 定 义 了 一 个 非常 通用 








的 init O 方法 ， 然 后 我 们 强制 所 有 的 子 类 必须 提供 一 个 特定 的 参数 签名 。 


from inspect import Signature, Parameter 


def make_sig(*names): 
parms = [Parameter(name, Parameter.POSITIONAL_OR_KEYWORD) 
for name in names] 
return Signature(parms) 


class Structure: 
__signature__ = make_sig() 
def __init__(self, *args, **kwargs): 
bound_values = self.__signature__.bind(*args, **kwargs) 
for name, value in bound_values.arguments.items(): 
setattr(self, name, value) 


# Example use 
class Stock(Structure): 
__Signature__ = make_sig('name', ‘shares’, 'price') 


class Point(Structure): 
__signature__ = make_sig('x', ‘y') 


下 面 是 使 用 这 个 stock 类 的 示例 : 


>>> import inspect 

>>> print(inspect.signature(Stock) ) 
(name, shares, price) 

>>> s1 = Stock('ACME', 100, 490.1) 
>>> S2 = Stock('ACME', 100) 
Traceback (most recent call last): 


TypeError: ‘price’ parameter lacking default value 
>>> s3 = Stock('ACME', 100, 490.1, shares=50) 
Traceback (most recent call last): 


TypeError: multiple values for argument 'shares' 
>>> 


讨论 


在 我 们 需要 构建 通 











使 用 是 很 普遍 的 。 
代码 就 会 笨拙 混乱 。 





来 简化 它 。 





























函数 库 、 编 写 装 饰 器 或 实现 代理 的 时 候 ， 对 于 *args 和 **kwargs 的 
fri 这 样 的 函数 有 一 个 缺点 就 是 当 你 想 要 实现 自己 的 参数 检验 时 ， 
在 8.11 小 节 里 面 有 这 样 一 个 例子 。 这 时 候 我 们 可 以 通过 一 个 签名 对 象 


在 最 后 的 一 个 方案 实例 中 ， 我 们 还 可 以 通过 使 用 自 定 义 元 类 来 创建 签名 对 象 。 下 面 演示 怎 


样 来 实现 : 


from inspect import Signature, Parameter 


def make_sig(*names): 
parms = [Parameter(name, Parameter.POSITIONAL_OR_KEYWORD) 
for name in names] 
return Signature(parms) 


class StructureMeta(type): 
def __new__(cls, clsname, bases, clsdict): 
clsdict['__signature__'] = make_sig(*clsdict.get('_fields',[])) 
return super().__new__(cls, clsname, bases, clsdict) 


class Structure(metaclass=StructureMeta) : 
_fields = [] 
def __init__(self, *args, **kwargs): 
bound_values = self. __signature__.bind(*args, **kwargs) 


for name, value in bound_values.arguments.items(): 
setattr(self, name, value) 


# Example 
class Stock(Structure): 
_fields = ['name', ‘shares’, "price '] 


class Point(Structure): 
_fields = ['x', 'y'] 





当 我 们 自 定义 签名 的 时 候 ， 将 签名 存储 在 特定 的 属性 signature 中 通常 是 很 有 用 的 。 


这 样 的 话 ， 在 使 用 inspect 模块 执行 内 省 的 代码 就 能 发 现 签名 并 将 它 作 为 调用 约定 。 





>>> import inspect 

>>> print(inspect.signature(Stock) ) 
(name, shares, price) 

>>> print(inspect.signature(Point) ) 


(x, y) 
>>> 


9.17 在 类 上 强制 使 用 编程 规约 
问题 


你 的 程序 包含 一 个 很 大 的 类 继承 体系 ， 你 希望 强制 执行 茶 些 编程 规约 《或 者 代码 诊断 ) 来 
帮助 程序 员 保持 清醒 。 














如 果 你 想 监 控 类 的 定义 ， 通 常 可 以 通过 定义 一 个 元 类 。 一 个 基本 元 类 通常 是 继承 自 type 
并 重 定 义 它 的 _new_() 方法 或 者 是 _ init O 方法 。 比 如 : 


class MyMeta(type): 
def __new__(self, clsname, bases, clsdict): 
# clsname is name of class being defined 
# bases is tuple of base classes 
# clsdict is class dictionary 
return super().__new__(cls, clsname, bases, clsdict) 


另 一 种 是 ， 定 义 _init 0 方法 : 


class MyMeta(type): 
def __init__(self, clsname, bases, clsdict): 
super().__init__(clsname, bases, clsdict) 
# clsname is name of class being defined 
# bases is tuple of base classes 
# clsdict is class dictionary 


为 了 使 用 这 个 元 类 ， 你 通常 要 将 它 放 到 到 一 个 顶级 父 类 定义 中 ， 然 后 其 他 的 类 继承 这 个 顶 
级 父 类 。 例 如 : 


class Root(metaclass=MyMeta): 
pass 


class A(Root): 
pass 


class B(Root): 
pass 


元 类 的 一 个 关键 特点 是 它 允 许 你 在 定义 的 时 候 检查 类 的 内 容 。 在 重新 定义 _init_() 方 
法 中 ， 你 可 以 很 轻松 的 检查 类 字典 、 父 类 等 等 。 并 且 ， 一 旦 茶 个 元 类 被 指定 给 了 某 个 
类 ， 那 么 就 会 被 继承 到 所 有 子 类 中 去 。 因此， 一 个 框架 的 构建 者 就 能 在 大 型 的 继承 体系 
中 通过 给 一 个 顶级 父 类 指定 一 个 元 类 去 捕获 所 有 下 面子 类 的 定义 。 























作为 一 个 具体 的 应 用 例子 ， 下 面 定义 了 一 个 元 类 ， 它 会 拒绝 任何 有 混合 大 小 写 名 字 作 为 方 
法 的 类 定义 〈 可 能 是 想 气 死 Java 程 序 员 ^ ^) : 





class NoMixedCaseMeta(type): 
def __new__(cls, clsname, bases, clsdict): 
for name in clsdict: 
if name.lower() != name: 


raise TypeError('Bad attribute name: + name) 


return super().__new__(cls, clsname, bases, clsdict) 


class Root(metaclass=NoMixedCaseMeta): 
pass 


class A(Root): 
def foo_bar(self): # OR 
pass 


class B(Root): 
def fooBar(self): # TypeError 
pass 








作为 更 高 级 和 实用 的 例子 ， 下 面 有 一 个 元 类 ， 它 用 来 检测 重 载 方法 ， 确 保 它 的 调用 参数 跟 
父 类 中 原始 方法 有 着 相同 的 参数 签名 。 


from inspect import signature 
import logging 


class MatchSignaturesMeta(type): 


def __init__(self, clsname, bases, clsdict): 
super().__init__(clsname, bases, clsdict) 
sup = super(self, self) 
for name, value in clsdict.items(): 
if name.startswith('_') or not callable(value): 
continue 
# Get the previous definition (if any) and compare the signatures 
prev_dfn = getattr(sup,name, None) 
if prev_dfn: 
prev_sig = signature(prev_dfn) 
val_sig = signature(value) 
if prev_sig != val_sig: 
logging.warning('Signature mismatch in %s. %s != %s', 


value. __qualname__, prev_sig, val sig) 


# Example 
class Root(metaclass=MatchSignaturesMeta) : 
pass 


class A(Root): 
def foo(self, x, y): 
pass 


def spam(self, x, *, z): 
pass 


# Class with redefined methods, but slightly different signatures 
class B(A): 
def foo(self, a, b): 
pass 


def spam(self,x,z): 
pass 


如 果 你 运行 这 段 代 码 ， 就 会 得 到 下 面 这 样 的 输出 结 


WARNING:root:Signature mismatch in B.spam. (self, x, *, z) != (self, x, zZ) 
WARNING: root:Signature mismatch in B.foo. (self, x, y) != (self, a, b) 


这 种 警告 信息 对 于 捕获 一 些微 妙 的 程序 pug 是 很 有 用 的 。 例 如 ， 如 果 茶 个 代码 依赖 于 传递 











给 方法 的 关键 字 参 数 ， 那 么 当 子 类 改变 参数 名 字 的 时 候 就 会 调用 出 错 。 


讨论 





在 大 型 面向 对 象 的 程序 中 ， 通 常 将 类 的 定义 放 在 元 类 中 控制 是 很 有 用 的 。 元 类 可 以 监控 
类 的 定义 ， 警 告 编程 人 员 某 些 没 有 注意 到 的 可 能 出 现 的 问题 。 





有 人 可 能 会 说 ， 像 这 样 的 错误 可 以 通过 程序 分 析 工 具 或 IDE 去 做 会 更 好 些 。 诚 然 ， 这 些 工 
有 共 是 很 有 用 。 但 是 ， 如 果 你 在 构建 一 个 框架 或 函数 库 供 其 他 人 使 用 ， 那 么 你 没 办 法 去 控 
制 使 用 者 要 使 用 什么 工具 。 因此， 对 于 这 种 类 型 的 程序 ， 如 果 可 以 在 元 类 中 做 检测 或 许 
可 以 带 来 更 好 的 用 户 体验 。 








在 元 类 中 选择 重新 定义 ne O 方法 还 是 init O 方法 取决 于 你 想 怎样 使 用 结果 


类 。 new O 方法 在 类 创建 之 前 被 调用 ， 通 常用 于 通过 某 种 方式 (比如 通过 改变 类 字典 


的 内 容 ) 修改 类 的 定义 。 而 init O 方法 是 在 类 被 创建 之 后 被 调用 ， 当 你 需要 完整 构 
建 类 对 象 的 时 候 会 很 有 用 。 在 最 后 一 个 例子 中 ， 这 是 必要 的 ， 因 为 它 使 用 了 super() R 
数 来 搜索 之 前 的 定义 。 它 只 能 在 类 的 实例 被 创建 之 后 ， 并 且 相 应 的 方法 解析 顺序 也 已 经 


被 设置 好 了 。 




















最 后 一 个 例子 还 演示 了 Python 的 函数 签名 对 象 的 使 用 。 实 际 上 ， 元 类 会 管理 中 每 个 一 个 
调用 定义 ， 搜索 前 一 个 定义 (如 果 有 的 话 ) , 然后 通过 使 用 inspect.signature() 来 简单 
的 比较 它们 的 调用 签名 。 





最 后 一 点 ， 代 码 中 有 一 行使 用 了 super(self，self) 并 不 是 排版 错误 。 当 使 用 元 类 的 时 
候 ， 我 们 要 时 刻 记 住 一 点 就 是 sef 实际 上 是 一 个 类 对 象 。 因 此， 这 条 语句 其 实 就 是 用 来 
寻找 位 于 继承 体系 中 构建 self 父 类 的 定义 。 





9.18 以 编程 方式 定义 类 

问题 

你 在 写 一 段 代 码 ， 最 终 需 要 创建 一 个 新 的 类 对 象 。 你 考虑 将 类 的 定义 源 代 码 以 字符 串 的 形 
式 发 布 出 去 。 并且 使 用 函数 比如 exec() 来 执行 它 ， 但 是 你 想 寻找 一 个 更 加 优雅 的 解决 方 


案 。 








解决 方案 


你 可 以 使 用 函数 types.new_class() 来 初始 化 新 的 类 对 象 。 你 需要 做 的 只 是 提供 类 的 名 
字 、 父 类 元 组 、 关 键 字 参数 ， 以 及 一 个 用 成 员 变 量 填充 类 字典 的 回调 函数 。 例 如 : 


# stock.py 
# Example of making a class manually from parts 


# Methods 
def __init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 
def cost(self): 
return self.shares * self.price 


cls_ dict = { 
"ime o nd Ey 
"cost" i cost, 


# Make a class 
import types 


Stock = types.new_class('Stock', (), {}, lambda ns: ns.update(cls_dict)) 
Stock. module = __name__ 


这 种 方式 会 构建 一 个 普通 的 类 对 象 ， 并 且 按 照 你 的 期 望 工作 : 


>>> s = Stock('ACME', 50, 91.1) 

>>> S 

<stock.Stock object at 6x1666a9b16> 
>>> s.cost() 

4555.0 

>>> 




















这 种 方法 中 ， 一 个 比较 难 理解 的 地 方 是 在 调用 完 types.new_class() 对 Stock.__module__ 
的 赋值 。 每 次 当 一 个 类 被 定义 后 ， 它 的 __module ”属性 包含 定义 它 的 模块 名 。 这 个 名 字 
用 于 生成 _repr_() 方法 的 输出 。 它 同样 也 被 用 于 很 多 库 ， 比 如 pickle o 因此， 为 了 
让 你 创建 的 类 是 “正确 "的 ， 你 需要 确保 这 个 属性 也 设置 正确 了 。 














如 果 你 想 创建 的 类 需要 一 个 不 同 的 元 类 ， 可 以 通过 types.new_class() 第 三 个 参数 传递 给 
它 。 例如 : 


>>> import abc 
>>> Stock = types.new_class('Stock', (), {'metaclass': abc.ABCMeta}, 
lambda ns: ns.update(cls_dict)) 


>>> Stock. __ module | = __name__ 


>>> Stock 
<class ' main .Stock'> 


>>> type(Stock) 
<class ‘abc.ABCMeta'> 
>>> 


第 三 个 参数 还 可 以 包含 其 他 的 关键 字 参 数 。 比 如 ， 一 个 类 的 定义 如 下 : 


class Spam(Base, debug=True, typecheck=False): 
pass 


那么 可 以 将 其 翻译 成 如 下 的 new_class() 调用 形式 : 


Spam = types.new_class('Spam', (Base,), 
{'debug': True, 'typecheck': False}, 
lambda ns: ns.update(cls_dict)) 


new_class() 第 四 个 参数 最 神秘 ， 它 是 一 个 用 来 接受 类 命名 空间 的 映射 对 象 的 函数 。 通常 
这 是 一 个 普通 的 字典 ， 但 是 它 实 际 上 是 _prepare_() 方法 返回 的 任意 对 象 ， 这 个 在 9.14 
小 节 已 经 介绍 过 了 。 这 个 函数 需要 使 用 上 面 演 示 的 update() 方法 给 命名 空间 增加 内 容 。 











很 多 时 候 如 果 能 构造 新 的 类 对 象 是 很 有 用 的 。 有 个 很 熟悉 的 例子 是 调用 
collections.namedtuple() PAA, Pla: 


>>> Stock = collections.namedtuple('Stock', ['name', ‘shares’, 'price']) 
>>> Stock 

<class ' main .Stock'> 

>>> 


namedtuple() 使 用 exec() 而 不 是 上 面 介 绍 的 技术 。 但 是 ， 下 面 通过 一 | 简单 的 变化 ， 
我 们 直接 创建 一 个 类 : 


import operator 
import types 
import sys 


def named_tuple(classname, fieldnames): 
# Populate a dictionary of field property accessors 
cls dict = { name: property(operator.itemgetter(n) ) 
for n, name in enumerate(fieldnames) } 


# Make a __new__ function and add to the class dict 
def __new__(cls, *args): 
if len(args) != len(fieldnames): 


raise TypeError('Expected {} arguments'.format(len(fieldnames) ) ) 


return tuple. __new__(cls, args) 


cls dict[' new '] = new 


# Make the class 
cls = types.new_class(classname, (tuple,), {}, 
lambda ns: ns.update(cls_dict)) 


# Set the module to that of the caller 
cls.__module__ = sys. _getframe(1).f_globals[' name__‘] 
return cls 


这 段 代 码 的 最 后 部 分 使 用 了 一 个 所 谓 的 "框架 魔法 "， 通 过 调用 sys 
用 者 的 模块 名 。 另外 一 个 框架 魔法 例子 在 2.15 小 节 中 有 介绍 过 。 








下 面 的 例子 演示 了 前 面 的 代码 是 如 何 工作 的 : 


>>> Point = named_tuple('Point', ['x', ‘y']) 
>>> Point 
<class '__main__.Point'> 
>>> p = Point(4, 5) 
>>> len(p) 
2 
>>> p.x 
4 
>>> py 
5 
>>> p.x = 2 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: can't set attribute 
>>> print('%s %s' % p) 
45 
>>> 


._getframe() 来 获取 调 





这 项 技术 一 个 很 重要 的 方面 是 它 对 于 元 类 的 正确 使 用 。 你 可 能 像 通过 直接 实例 化 一 个 元 
类 来 直接 创建 一 


Stock = type('Stock', (), cls_dict) 


eT ens ee 比如 对 于 元 类 中 prepare () 方法 的 调 
用 。 通过 使 用 types.new class() ， 你 可 以 保证 所 有 的 必要 初始 化 步骤 都 能 得 到 执行 HE 
如 ， types.new_class() 第 四 个 参数 的 回调 函数 接受 __prepare_0 方法 返 回 的 映射 对 
象 。 


如 果 你 仅仅 只 是 想 执 行 准 备 步骤 ， 可 以 使 用 types.prepare_class() 。 例 如 : 


import types 
metaclass, kwargs, ns = types.prepare_class('Stock', (), {'metaclass': type}) 








它 会 查找 合适 的 元 类 并 调用 它 的 _prepare_() 方法 。 然 后 这 个 元 类 保存 它 的 关键 字 参 
数 ， 准 备 命名 空间 后 被 返回 


更 多 信息 , 请 参考 PEP 3115, 以 及 Python documentation. 
9.19 在 定义 的 时 候 初 始 化 类 的 成 员 


问题 





你 想 在 类 被 定义 的 时 候 就 初始 化 一 部 分 类 的 成 员 ， 而 不 是 要 等 到 实例 被 创建 后 。 


在 类 定义 时 就 执行 初始 化 或 设置 操作 是 元 类 的 一 个 典型 应 用 场景 。 本 质 上 讲 ， 
在 定义 时 被 触发 ， 这 时 候 你 可 以 执行 一 些 额 外 的 操作 。 


Hp 


下 面 是 一 个 例子 ， 利 用 这 个 思路 来 创建 类 似 于 collections 模块 中 的 命名 元 组 的 类 : 


import operator 


class StructTupleMeta(type): 
def __init__(cls, *args, **kwargs): 
super().__init__(*args, **kwargs) 
for n, name in enumerate(cls._fields): 
setattr(cls, name, property(operator.itemgetter(n))) 


class StructTuple(tuple, metaclass=StructTupleMeta) : 
_fields = [] 
def __new_(cls, *args): 
if len(args) != len(cls._fields): 
raise ValueError('{} arguments required'.format(len(cls._fields))) 


return super().__new__(cls,args) 


这 段 代码 可 以 用 来 定义 简单 的 基于 元 组 的 数据 结构 ， 如 下 所 示 : 
class Stock(StructTuple): 
_fields = ['name', 'shares', 'price'] 


class Point(StructTuple): 
_fields = ['x', "y"] 





下 面 演示 它 如 何 工作 : 


>>> s = Stock('ACME', 50, 91.1) 

>>> S 

('ACME', 50, 91.1) 

>>> s[e@] 

' ACME ' 

>>> S.name 

"ACME" 

>>> s.shares * s.price 

4555.0 

>>> s.shares = 23 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 

>>> 


这 一 小 节 中 ， 类 structTuplemeta 获取 到 类 属性 fields 中 的 属性 名 字 列 表 ， 然 后 将 它们 
转换 成 相应 的 可 访问 特定 元 组 槽 的 方法 。 函数 operator. itemgetter() 创建 一 个 访问 器 函 
数 ， 然 后 property() 函数 将 其 转换 成 一 个 属性 。 








本 节 最 难 懂 的 部 分 是 知道 不 同 的 初始 化 步骤 是 什么 时 候 发 生 的 。 StructTuplemeta 中 的 

init O 方法 只 在 每 个 类 被 定义 时 被 调用 一 次 。 cl1s 参数 就 是 那个 被 定义 的 类 。 实 际 
上 ， 上 述 代码 使 用 了 _fields 类 变量 来 保存 新 的 被 定义 的 类 ， 然后 给 它 再 添加 一 点 新 的 
东西 。 





structTuple 类 作为 一 个 普通 的 基 类 ， 供 其 他 使 用 者 来 继承 。 这 个 类 中 的 new O 方法 
用 来 构造 新 的 实例 。 这 里 使 用 new O 并 不 是 很 常见 ， 主 要 是 因为 我 们 要 修改 元 组 的 
调用 签名 ， 使 得 我 们 可 以 像 普 通 的 实例 调用 那样 创建 实例 。 就 像 下 面 这 样 : 


Stock('ACME', 50, 91.1) # OK 
Stock(('ACME', 50, 91.1)) # Error 





BR int O 不 同 的 是 ， _new_() 方法 在 实例 被 创建 之 前 被 触发 。 由 于 元 组 是 不 可 修 
改 的 ， 所 以 一 旦 它们 被 创建 了 就 不 可 能 对 它 做 任何 改变 。 而 init O 会 在 实例 创建 的 
最 后 被 触发 ， 这 样 的 话 我 们 就 可 以 做 我 们 想 做 的 了 。 这 也 是 为 什么 _new_() 方法 已 经 
被 定义 了 。 








尽管 本 节 很 得， 还 是 需要 你 能 仔细 研读 ， 深 入 思考 Python 类 是 如 何 被 定义 的 ， 实 例 是 如 
何 被 创建 的 ， 还 有 就 是 元 类 和 类 的 各 个 不 同 的 方法 究竟 在 什么 时 候 被 调用 。 





PEP 422 提供 了 一 个 解决 本 节 问 题 的 另外 一 种 方法 。 但是， 截止 到 我 写 这 本 书 的 时 候 ， 它 
还 没 被 采纳 和 接受 。 尽 管 如 此 ， 如 果 你 使 用 的 是 Python 3.3 或 更 高 的 版 本 ， 那 么 还 是 值得 
去 看 一 下 的 。 





9.20 利用 函数 注解 实现 方法 重 载 
问题 


你 已 经 学 过 怎样 使 用 函数 参数 注解 ， 那 么 你 可 


能 会 想 利用 它 来 实现 基于 类 型 的 方法 重 载 。 
但 是 你 不 确定 应 该 怎样 去 实现 (或 者 到 底 行 得 通 


Ss 
AN) o 





本 小 节 的 技术 是 基于 一 个 简单 的 技术 ， 那 就 是 Python 允许 参数 注解 ， 代 码 可 以 像 下 面 这 
样 写 : 


class Spam: 
def bar(self, x:int, y:int): 
print('Bar 1:', x, y) 


def bar(self, s:str, n:int = ð): 
print('Bar 2:', s, n) 


s = Spam() 
s.bar(2, 3) # Prints Bar 1: 2 3 
s.bar('hello') # Prints Bar 2: hello 6 


下 面 是 我 们 第 一 步 的 尝试 ， 使 用 到 了 一 个 元 类 和 描述 器 : 


# muLtiple.py 
import inspect 
import types 


class MultiMethod: 


Represents a single multimethod. 


def __init__(self, name): 
self. _ methods {} 
self.__name__ = name 


def register(self, meth): 


Register a new method as a multimethod 


sig = inspect.signature(meth) 


# Build a type signature from the method's annotations 
types = [] 
for name, parm in sig.parameters.items(): 
if name == 'self': 
continue 
if parm.annotation is inspect.Parameter.empty: 
raise TypeError( 
'Argument {} must be annotated with a type'.format(name) 
) 
if not isinstance(parm.annotation, type): 
raise TypeError( 
'Argument {} annotation must be a type'.format(name) 
) 
if parm.default is not inspect.Parameter.empty: 
self. methods[tuple(types)] = meth 
types.append(parm.annotation) 


self._methods[tuple(types)] = meth 
def __call__(self, *args): 


Call a method based on type signature of the arguments 


types = tuple(type(arg) for arg in args[1:]) 
meth = self. _methods.get(types, None) 
if meth: 
return meth(*args) 
else: 
raise TypeError('No matching method for types {}'.format(types) ) 


def __get__(self, instance, cls): 


Descriptor method needed to make calls work in a class 
if instance is not None: 

return types.MethodType(self, instance) 
else: 

return self 


class MultiDict(dict): 


Special dictionary to build multimethods in a metaclass 
def __setitem__(self, key, value): 
if key in self: 
# If key already exists, it must be a multimethod or callable 
current_value = self[key] 
if isinstance(current_value, MultiMethod): 
current_value.register(value) 
else: 
mvalue = MultiMethod(key) 
mvalue.register(current_value) 
mvalue.register(value) 
super().__setitem__(key, mvalue) 
else: 
super().__setitem__(key, value) 


class MultipleMeta(type): 


Metaclass that allows multiple dispatch of methods 
def __new__(cls, clsname, bases, clsdict): 
return type. new (cls, clsname, bases, dict(clsdict)) 


@classmethod 
def __prepare__(cls, clsname, bases): 
return MultiDict() 





为 了 使 用 这 个 类 ， 你 可 以 像 下 面 这 样 写 : 


class Spam(metaclass=MultipleMeta) : 
def bar(self, x:int, y:int): 
print('Bar 1:', x, y) 


def bar(self, s:str, n:int = @): 
print('Bar 2:', s, n) 


# Example: overloaded __init__ 
import time 


class Date(metaclass=MultipleMeta): 
def __init__(self, year: int, month:int, day:int): 
self.year = year 
self.month = month 
self.day = day 


def __init__(self): 


t = time.localtime() 
self.__init__(t.tm_year, t.tm_mon, t.tm_mday) 


下 面 是 一 个 交互 示例 来 验证 它 能 正确 的 工作 : 


>>> S = Spam() 

>>> s.bar(2, 3) 

Bar 1: 2 3 

>>> s.bar('hello') 
Bar 2: hello 6 

>>> s.bar('hello'’, 5) 
Bar 2: hello 5 


>>> s.bar(2, ‘'hello') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "multiple.py", line 42, in _ call__ 

raise TypeError('No matching method for types {}'.format(types) ) 

TypeError: No matching method for types (<class ‘int'>, <class ‘str'>) 
>>> # Overloaded __init__ 
= Date(2012, 12, 21) 


>>> d 

>>> # Get today's date 
e 
e 


>>> = Date() 
>>> e.year 
2012 

>>> e.month 

12 

>>> e.day 

3 

>>> 


坦白 来 讲 ， 相 对 于 通常 的 代码 而 已 本 节 使 用 到 了 很 多 的 魔法 代码 。 但 是 ， 它 却 能 让 我 们 
深入 理解 元 类 和 描述 器 的 底层 工作 原理 ， 并 能 加 深 对 这 些 概念 的 印象 。 因 此 ， 就 算 你 并 
不 会 立即 去 应 用 本 节 的 技术 ， 它 的 一 些 底层 思想 却 会 影响 到 其 它 涉及 到 元 类 、 描 述 器 和 
函数 注解 的 编程 技术 。 
































本 节 的 实现 中 的 主要 思路 其 实 是 很 简单 的 。 mutipleMeta 元 类 使 用 它 的 _prepare_() 方 
法 来 提供 一 个 作为 multipict 实例 的 自 定义 字典 。 这 个 跟 普 通 字 典 不 一 样 的 是 ， 
Multipict 会 在 元 素 被 设置 的 时 候 检 查 是 否 已 经 存在 ， 如 果 存 在 的 话 ， 重 复 的 元 素 会 在 
MultiMethod 实例 中 合并 。 











MultiMethod 实例 通过 构建 从 类 型 签名 到 函数 的 映射 来 收集 方法 。 在 这 个 构建 过 程 中 ， 函 
数 注解 被 用 来 收集 这 些 签名 然后 构建 这 个 映射 。 这 个 过 程 在 MultiMethod.register() 方法 
中 实现 。 这 种 映射 的 一 个 关键 特点 是 对 于 多 个 方法 ， 所 有 参数 类 型 都 必须 要 指定 ， 否 则 

就 会 报错 。 








为 了 让 multimethod 实例 模拟 一 个 调用 ， 它 的 can oO 方法 被 实现 了 。 这 个 方法 从 所 
有 排除 siet 的 参数 中 构建 一 个 类 型 元 组 ， 在 内 部 map 中 查找 这 个 方法 ， 然 后 调用 相应 的 
方法 。 为 了 能 让 multimethod 实例 在 类 定义 时 正确 操作 ， __get_() 是 必须 得 实现 的 。 它 
被 用 来 构建 正确 的 绑 定 方法 。 比 如 : 


>>> b = s.bar 

>>> b 

<bound method Spam.bar of <__main__.Spam object at 0x1006a46dQ@>> 
>>> b.__self__ 

<__main__.Spam object at @x1006a46d0> 

>>> b.__func__ 

<__main__.MultiMethod object at 0x10@6a4d5@> 
>>> b(2, 3) 

Bar 1: 2 3 

>>> b('hello') 

Bar 2: hello @ 

>>> 








不 过 本 节 的 实现 还 有 一 些 限制 ， 其 中 一 个 是 它 不 能 使 用 关键 字 参 数 。 例 如 : 


>>> s.bar(x=2, y=3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: __call__() got an unexpected keyword argument ‘y' 


>>> s.bar(s="hello') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: 
>>> 


_call__() got an unexpected keyword argument 's' 


也 许 有 其 他 的 方法 能 添加 这 种 支持 ， 但 是 它 需 要 一 个 完全 不 同 的 方法 映射 方式 。 问题 在 
于 关键 字 参 数 的 出 现 是 没有 顺序 的 。 当 它 跟 位 置 参数 混合 使 用 时 ， 那 你 的 参数 就 会 变 得 
比较 混乱 了 ， 这 时 候 你 不 得 不 在 ca oO 方法 中 先 去 做 个 排序 。 








同样 对 于 继承 也 是 有 限制 的 ， 例 如 ， 类 似 下 面 这 种 代码 就 不 能 正常 工作 : 


class A: 
pass 


class B(A): 
pass 


class C: 
pass 


class Spam(metaclass=MultipleMeta): 
def foo(self, x:A): 
print('Foo 1:', x) 


def foo(self, x:C): 
print('Foo 2:', x) 


原因 是 因为 xa 注解 不 能 成 功 匹 配子 类 实例 (比如 B 的 实例 ) ， 如 下 : 


s = Spam() 

a = A() 

s.foo(a) 

1: <__main__.A object at @x1006a5310> 
>2 € = CC) 

s.foo(c) 

2: <__main__.C object at @x1007a1910> 

b = B() 
>>> s.foo(b) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "multiple.py", line 44, in _ call _ 

raise TypeError('No matching method for types {}'.format(types) ) 

TypeError: No matching method for types (<class '__main__.B'>,) 
>>> 


TEA OZR AE A ARRIR, AY DIR AR SIMA CR. Poll MH: 


import types 


class multimethod: 


def 


def 


def 


def _ 


__init__(self, func): 


self. methods {} 
self.__name__ = func.__name__ 
self. _default = func 


match(self, *types): 
def register(func): 


ndefaults = len(func.__defaults__) if func. __defaults__ 


for n in range(ndefaults+1): 
self._methods[types[:len(types) - n]] = func 
return self 
return register 


__call__(self, *args): 
types = tuple(type(arg) for arg in args[1:]) 
meth = self. _methods.get(types, None) 
if meth: 
return meth(*args) 
else: 
return self. default(*args) 


get__(self, instance, cls): 
if instance is not None: 
return types.MethodType(self, instance) 
else: 
return self 





为 了 使 用 描述 器 版 本 ， 你 需要 像 下 面 这 样 写 : 


class Spam: 
@multimethod 


def 


bar(self, *args): 
# Default method called if no match 
raise TypeError('No matching method for bar') 


@bar.match(int, int) 


def 


bar(self, x, y): 
print('Bar 1:', x, y) 


@bar.match(str, int) 


def 


Haid as 7 RIFE A Be AY ORR 


bar(self, s, n = ð): 
print('Bar 2:', s, n) 


| (不 支持 关键 字 参 数 和 继承 )。 





at 


else 0 


所 有 事物 都 是 平等 的 ， 有 好 有 坏 ， 也 许 最 好 的 办 法 就 是 在 普通 代码 中 避免 使 用 方法 重 载 。 
不 过 有 些 特殊 情况 下 还 是 有 意义 的 ， 比 如 基于 模式 匹配 的 方法 重 载 程序 中 。 举 个 例子 ， 
8.21 小 节 中 的 访问 者 模式 可 以 修改 为 一 个 使 用 方法 重 载 的 类 。 但是， 除了 这 个 以 外 ， 通 常 
不 应 该 使 用 方法 重 载 〈 就 简单 的 使 用 不 同名 称 的 方法 就 行 了 ) 。 








在 Python 社区 对 于 实现 方法 重 载 的 讨论 已 经 由 来 已 入。 对 于 引发 这 个 争论 的 原因 ， 可 以 
参考 下 Guido van Rossum 的 这 篇 博客 : Five-Minute Multimethods in Python 





9.21 避免 重复 的 属性 方法 


问题 





你 在 类 中 需要 重复 的 定义 一 些 执行 相同 逻辑 的 属性 方法 ， 比 如 进行 类 型 检查 ， 怎 样 去 简化 
这 些 重 复 代 码 呢 ? 





解决 方案 








考虑 下 一 个 简单 的 类 ， 它 的 属性 由 属性 方法 包装 : 


class Person: 
def __init__(self, name ,age): 
self.name = name 
self.age = age 


@property 
def name(self): 
return self. name 


@name.setter 
def name(self, value): 
if not isinstance(value, str): 
raise TypeError('name must be a string’) 
self. name = value 


@property 
def age(self): 
return self._age 


@age.setter 
def age(self, value): 
if not isinstance(value, int): 
raise TypeError('age must be an int') 
self._age = value 


可 以 看 到 ， 为 了 实现 属性 值 的 类 型 检查 我 们 写 了 很 多 的 重复 代码 。 只 要 你 以 后 看 到 类 似 
这 样 的 代码 ， 你 都 应 该 想 办 法 去 简化 它 。 一 个 可 行 的 方法 是 创建 一 个 函数 用 来 定义 属性 
并 返回 它 。 例 如 : 





def typed_property(name, expected_type): 
storage name = '_' + name 


@property 
def prop(self): 
return getattr(self, storage name) 


@prop.setter 
def prop(self, value): 
if not isinstance(value, expected_type): 
raise TypeError('{} must be a {}'.format(name, expected_type) ) 


setattr(self, storage name, value) 
return prop 


# Example use 

class Person: 
name = typed_property('name', str) 
age = typed_property('age', int) 


def __init__(self, name, age): 
self.name = name 
self.age = age 


讨论 


本 节 我 们 演示 内 部 函数 或 者 闭 包 的 一 个 重要 特性 ， 它 们 很 像 一 个 宏 。 例 子 中 的 函数 
typed_property() 看 上 去 有 点 难 理解 ， 其 实 它 所 做 的 仅仅 就 是 为 你 生成 属性 并 返回 这 个 属 
性 对 象 。 因 此 ， 当 在 一 个 类 中 使 用 它 的 时 候 ， 效 果 跟 将 它 里 面 的 代码 放 到 类 定义 中 去 是 
一 样 的 。 尽管 属性 的 getter 和 setter 方法 访问 了 本 地 变量 如 name , expected_type 以 
及 storate_name ， 这 个 很 正常 ， 这 些 变 量 的 值 会 保存 在 闭 包 当中 。 




















我 们 还 可 以 使 用 functools.partial() 来 稍稍 改变 下 这 个 例子 ， 很 有 趣 。 例 如 ， 你 可 以 像 
下 面 这 样 : 


from functools import partial 


String = partial(typed_property, expected_type=str) 
Integer = partial(typed_property, expected_type=int) 


# Example: 
class Person: 
name = String('name') 
age = Integer('age') 
def __init__(self, name, age): 


self.name = name 
self.age = age 


其 实 你 可 以 发 现 ， 这 里 的 代码 跟 8.13 小 节 中 的 类 型 系统 描述 器 代码 有 些 相似 。 
9.22 定义 上 下 文 管理 器 的 简单 方法 


问题 

















你 想 自 己 去 实现 一 个 新 的 上 下 文 管理 器 ， 以 便 使 用 with 语句 。 








解决 方案 




















实现 一 个 新 的 上 下 文 管理 器 的 最 简单 的 方法 就 是 使 用 contexlib 模块 中 的 
@contextmanager 装饰 器 。 下 面 是 一 个 实现 了 代码 块 计时 功能 的 上 下 文 管理 器 例子 : 





j 























T 


import time 
from contextlib import contextmanager 


@contextmanager 
def timethis(label): 
start = time.time() 
try: 
yield 
finally: 
end = time.time() 
print('{}: {}'.format(label, end - start)) 


# Example use 
with timethis('counting'): 
n = 10000000 
while n > @: 
n -= 

















在 函数 timethis() P, yield 之 前 的 代码 会 在 上 下 文 管理 器 中 作为 _enter_() 方法 执 
行 ， 所 有 在 yield 之 后 的 代码 会 作为 _exit () 方法 执行 。 如 果 出 现 了 异常 ， 异 常会 
在 yield 语 句 那 里 抛 出。 




















下 面 是 一 个 更 加 高 级 一 点 的 上 下 文 管理 器 ， 实 现 了 列表 对 象 上 的 茶 种 事务 : 





@contextmanager 

def list_transaction(orig list): 
working = list(orig list) 
yield working 
orig list[:] = working 








这 段 代 码 的 作用 是 任何 对 列表 的 修改 只 有 当 所 有 代码 运行 完成 并 且 不 出 现 异 常 的 情况 下 才 
会 生效 。 下 面 我 们 来 演示 一 下 : 


>>> items = [1, 2, 3] 

>>> with list_transaction(items) as working: 
working.append(4) 
working.append(5) 

>>> items 

[1, 2, 3, 4, 5] 

>>> with list_transaction(items) as working: 
working.append(6) 
working.append(7) 
raise RuntimeError('oops') 


Traceback (most recent call last): 
File "<stdin>", line 4, in <module> 
RuntimeError: oops 
>>> items 
[1, 2, 3, 4, 5] 
>>> 


讨论 




















通常 情况 下 ， 如 果 要 写 一 个 上 下 文 管理 器 ， 你 需要 定义 一 个 类 ， 里 面包 含 一 个 
__enter _() 和 一 个 _ exit _() 方法 ， 如 下 所 示 : 


import time 


class timethis: 
def __init__(self, label): 
self.label = label 


def __enter__(self): 
self.start = time.time() 


def __exit__(self, exc_ty, exc_val, exc_tb): 
end = time.time() 
print('{}: {}'.format(self.label, end - self.start)) 


管 这 个 也 不 难 写 ， 但 是 相 比 较 写 一 个 简单 的 使 用 @contextmanager 注解 的 函数 而 言 还 是 
Hi ZMK 


>H 

















@contextmanager 应 该 仅仅 用 来 写 自 包含 的 上 下 文 管理 函数 。 如 果 你 有 一 些 对 象 (比如 一 个 
文件 、 网 络 连接 或 锁 )， 需 要 支持 with 语句 ， 那 么 你 就 需要 单独 实现 enter_() 方法 
和 _exit_() 方法 。 








9.23 在 局 部 变量 域 中 执行 代码 
问题 


你 想 在 使 用 范围 内 执行 某 个 代码 片段 ， 并 且 和 希望 在 执行 后 所 有 的 结果 都 不 可 见 。 




















为 了 理解 这 个 问题 ， 先 试 试 一 个 简单 场景 。 首 先 ， 在 全 局 命名 空间 内 执行 一 个 代码 片段 : 





>>> a = 13 

>>> exec('b = a + 1') 
>>> print(b) 

14 

>>> 


然后 ， 再 在 一 个 函数 中 执行 同样 的 代码 : 


>>> def test(): 
ae a = 13 
exec('b = a + 1') 
print(b) 
>>> test() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in test 
NameError: global name 'b' is not defined 
>>> 


可 以 看 出 ， 最 后 抛 出 了 一 个 NameError 异 常 ， 就 跟 在 exec() 语句 从 没 执行 过 一 样 。 要 是 
你 想 在 后 面 的 计算 中 使 用 到 exec() 执行 结果 的 话 就 会 有 问题 了 。 


为 了 修正 这 样 的 错误 ， 你 需要 在 调用 exec() 之 前 使 用 locals() 函数 来 得 到 一 个 局 部 变 
量 字典 。 之 后 你 就 能 从 局 部 字典 中 获取 修改 过 后 的 变量 值 了 。 例 如 : 





>>> def test(): 

re a = 13 
loc = locals() 
exec('b = a + 1') 


b = loc['b'] 
print(b) 
>>> test() 
14 
>>> 
讨论 


实际 上 对 于 exec() 的 正确 使 用 是 比较 难 的 。 大 多 数 情况 下 当 你 要 考虑 使 用 exec() 的 时 
候 ， 还 有 另外 更 好 的 解决 方案 〈 比 如 装饰 器 、 闭 包 、 元 类 等 等 ) 。 





然而 ， 如 果 你 仍然 要 使 用 exec() ， 本 节 列 出 了 一 些 如 何 正确 使 用 它 的 方法 。 默认 情况 
下 ， exec() 会 在 调用 者 局 部 和 全 局 范围 内 执行 代码 。 然 而 ， 在 函数 里 面 ， 传 递 给 
exec() 的 局 部 范围 是 拷贝 实际 局 部 变量 组 成 的 一 个 字典 。 因 此， 如 果 exec) 如 果 执行 
了 修改 操作 ， 这 种 修改 后 的 结果 对 实际 局 部 变量 值 是 没有 影响 的 。 下 面 是 另外 一 个 演示 
它 的 例子 : 
































>>> def test1(): 
x = 6 
exec('x += 1') 
print(x) 

>>> test1() 

0 

>>> 


上 面 代码 里 ， 当 你 调用 locals() 获取 局 部 变量 时 ， 你 获得 的 是 传递 给 exec() 的 局 部 变 
量 的 一 个 拷贝 。 通过 在 代码 执行 后 审查 这 个 字典 的 值 ， 那 就 能 获取 修改 后 的 值 了 。 下 面 
是 一 个 演示 例子 : 





>>> def test2(): 
š x = 6 
loc = locals() 
print('before:', loc) 
exec('x += 1') 
print('after:', loc) 
print('x =', x) 


>>> test2() 

before: {'x': 6} 

after: {'loc': {...}, ‘'x': 1} 
x = 0 


仔细 观察 最 后 一 步 的 输出 ， 除 非 你 将 loc 中 被 修改 后 的 值 手动 赋值 给 x， 否 则 x 变 量 值 是 
不 会 变 的 。 











在 使 用 locals() 的 时 候 ， 你 需要 注意 操作 顺序 。 每 次 它 被 调用 的 时 候 ， locals() 会 获 
取 局 部 变量 值 中 的 值 并 覆盖 字典 中 相应 的 变量 。 请 注意 观察 下 下 面 这 个 试验 的 输出 结 
果 : 


>>> def test3(): 
x = 6 
loc = locals() 
print(loc) 
exec('x += 1') 
print(loc) 
locals() 
print(loc) 


>>> test3() 

{'x': @} 

1 LOE" {seska OTT i} 
{* Loe’ Lawak -Xt 0} 
>>> 





注意 最 后 一 次 调用 locais 的 时 候 x 的 值 是 如 何 被 覆盖 掉 的 。 





作为 locals() 的 一 个 替代 方案 ， 你 可 以 使 用 你 自己 的 字典 ， 并 将 它 传递 给 exec) 。 例 
如 : 


>>> def test4() : 
a = 13 
loc = { 
glb = { } 
b = 


print(b) 
>>> test4() 


14 
>>> 


大 部 分 情况 下 ， 这 种 方式 是 使 用 exec() 的 最 佳 实践 。 你 只 需要 保证 全 局 和 局 部 字典 在 后 
面 代码 访问 时 已 经 被 初始 化 。 








还 有 一 点 ， 在 使 用 exec() 之 前 ， 你 可 能 需要 问 下 自己 是 否 有 其 他 更 好 的 替代 方案 。 大 多 
数 情况 下 当 你 要 考虑 使 用 exec() 的 时 候 ， 还 有 另外 更 好 的 解决 方案， 比如 装饰 器 、 闭 
包 、 元 类 ， 或 其 他 一 些 元 编程 特性 。 








9.24 解析 与 分 机 Python 源码 
问题 


你 想 写 解析 并 分 析 Python 源 代码 的 程序 。 


大 部 分 程序 员 知 道 Python 能 够 计算 或 执行 字符 串 形式 的 源 代码 。 例 如 : 





>>> eval('2 + 3*4 + x') 

56 

>>> exec('for i in range(16): print(i)') 
0 


vO WON DUM A UNB 





























尽管 如 此 ， ast 模块 能 被 用 来 将 Python 源 码 编译 成 一 个 可 被 分 析 的 抽象 语法 树 
(AST) 。 例 如 : 


>>> import ast 

>>> ex = ast.parse('2 + 3*4 + x', mode='eval') 

>>> ex 

<_ast.Expression object at 6x1667473d6> 

>>> ast.dump(ex) 

"Expression(body=BinOp(left=BinOp(left=Num(n=2), op=Add(), 
right=BinOp(left=Num(n=3), op=Mult(), right=Num(n=4))), op=Add(), 
right=Name(id='x', ctx=Load())))" 


>>> top = ast.parse('for i in range(10): print(i)', mode='exec') 
>>> top 

<_ast.Module object at 0x100747390> 

>>> ast.dump(top) 

"Module(body=[For(target=Name(id='i', ctx=Store()), 
iter=Call(func=Name(id='range', ctx=Load()), args=[Num(n=1@) ], 
keywords=[], starargs=None, kwargs=None), 
body=[Expr(value=Call(func=Name(id='print', ctx=Load()), 
args=[Name(id='i', ctx=Load())], keywords=[], starargs=None, 
kwargs=None))], orelse=[])])" 

>>> 





分 析 源 码 树 需 要 你 自己 更 多 的 学 习 ， 它 是 由 一 系列 AST 节 点 组 成 的 。 分 析 这 点 最 简单 
的 方法 就 是 定义 一 个 访问 者 类 ， 实 现 很 多 visit_NodeName() 方法 ， NodeName() | 匹配 那些 
你 感 兴趣 的 节点 。 下 面 是 这 样 一 个 类 ， 记 录 了 哪些 名 字 被 加 载 、 存 储 和 删除 的 信息 。 








import ast 


class CodeAnalyzer(ast.NodeVisitor): 
def __init__(self): 
self.loaded = set() 
self.stored = set() 
self.deleted = set() 


def visit_Name(self, node): 
if isinstance(node.ctx, ast.Load): 
self.loaded.add(node.id) 
elif isinstance(node.ctx, ast.Store): 
self.stored.add(node.id) 
elif isinstance(node.ctx, ast.Del): 
self.deleted.add(node.id) 


# Sample usage 

if __name__ == '_ main__ 
# Some Python code 
code = """ 

for i in range(1@): 
print(i) 

del i 


# Parse into an AST 
top = ast.parse(code, mode='exec') 


# Feed the AST to analyze name usage 
c = CodeAnalyzer() 

c.visit(top) 

print('Loaded:', c.loaded) 
print('Stored:', c.stored) 
print('Deleted:', c.deleted) 





如 果 你 运行 这 个 程序 ， 你 会 得 到 下 面 这 样 的 输出 : 


Loaded: {'i', ‘range’, ‘print'} 
Stored: {'i'} 
Deleted: {'i'} 


最 后 ， AST 可 以 通过 compile() 函数 来 编译 并 执行 。 例如 : 


>>> exec(compile(top,'<stdin>', ‘exec')) 


ow AN DUM BWNY FP OD 


v 
v 
v 


讨论 





当 你 能 够 分 析 源 代码 并 从 中 获取 信息 的 时 候 ， 你 就 能 写 很 多 代码 分 析 、 优 化 或 验证 工具 
了 。 例 如 ， 相 比 育 目 的 传递 一 些 代码 片段 到 类 似 exec() 函数 中 ， 你 可 以 先 将 它 转换 成 一 
个 AsT， 然 后 观察 它 的 细节 看 它 到 底 是 怎样 做 的 。 你 还 可 以 写 一 些 工 具 来 查看 茶 个 模块 
的 全 部 源码 ， 并 且 在 此 基础 上 执行 菜 些 静态 分 析 。 








需要 注意 的 是 ， 如 果 你 知道 自己 在 干 喻 ， 你 还 能 够 重 写 AST 来 表示 新 的 代码 。 下 面 是 一 个 
装饰 器 例子 ， 可 以 通过 重新 解析 函数 体 源码 、 重 写 AST 并 重新 创建 函数 代码 对 象 来 将 全 局 
访问 变量 降 为 函数 体 作用 范围 ， 


# nameLlower. py 
import ast 
import inspect 


# Node visitor that Lowers globally accessed names into 
# the function body as Local variables. 
class NameLower(ast.NodeVisitor): 
def __init__(self, lowered_names): 
self.lowered_names = lowered_names 


def visit_FunctionDef(self, node): 
# Compile some assignments to Lower the constants 
code = '__globals = globals()\n' 
code += '\n'.join("{@} = __globals['{0}']".format (name) 
for name in self.lowered_names) 
code_ast = ast.parse(code, mode='exec' ) 


# Inject new statements into the function body 
node.body[:@] = code_ast.body 


# Save the function object 
self.func = node 


# Decorator that turns global names into Locals 
def lower_names(*namelist): 
def lower(func): 
srclines = inspect.getsource(func).splitlines() 
# Skip source Lines prior to the @lower_names decorator 
for n, line in enumerate(srclines): 
if ‘@lower_names' in line: 
break 
src = '\n'.join(srclines[n+1: ]) 
# Hack to deal with indented code 
if src.startswith((' ','\t')): 
src = ‘if 1:\n' + src 
top = ast.parse(src, mode='exec') 


# Transform the AST 
cl = NameLower(namelist) 
cl.visit(top) 


# Execute the modified AST 


temp = {} 
exec(compile(top,'','exec'), temp, temp) 


# Pull out the modified code object 
func. code = temp[func.__name__].__code__ 
return func 

return lower 





为 了 使 用 这 个 代码 ， 你 可 以 像 下 面 这 样 写 : 


INCR = 1 
@lower_names('INCR') 
def countdown(n): 
while n > @: 
n -= INCR 


Az 





装饰 器 会 将 countdown() 函数 重 写 为 类 似 下 面 这 样子 : 


def countdown(n): 
__globals = globals() 


INCR = __globals['INCR' ] 
while n > @: 
n -= INCR 


在 性 能 测试 中 ， 它 会 让 函数 运行 快 20% 








现在 ， 你 是 不 是 想 为 你 所 有 的 函数 都 加 上 这 个 装饰 器 呢 ? 或 许 不 会 。 但 是 ， 这 却 是 对 于 
一 些 高 级 技术 比如 AST 操 作 、 源 码 操作 等 等 的 一 个 很 好 的 演示 说 明 























本 节 受 另外 一 个 在 Activestate 中 处 理 Python 字 节 码 的 章节 的 启示 。 使 用 AST 是 一 个 更 加 
高 级 点 的 技术 ， 并 且 也 更 简单 些 。 参 考 下 面 一 节 获 得 字 节 码 的 更 多 信息 。 





9.25 拆 解 Python 字 节 码 


问题 

















一 


你 想 通 过 将 你 的 代码 反 编译 成 低级 的 字 节 码 来 查看 它 底 层 的 工作 机 制 。 


dis 模块 可 以 被 用 来 输出 任何 Python 函数 的 反 编 译 结果 。 例 如 : 


>>> def countdown(n): 
. while n > @: 
print('T-minus', n) 
n -= 
. print('Blastoff!') 


>>> import dis 
>>> dis.dis(countdown) 


>>> 


当 你 想 要 知道 你 的 程序 底层 的 运行 机 制 的 时 候 ， dis 模块 是 很 有 用 的 。 比 如 如 果 你 想 试 
着 理解 性 能 特征 。 被 diso 函数 解析 的 原始 字 节 码 如 下 所 示 : 






































>>> countdown. _ code__ .co_code 
b"x'N\Xx66|\X66\X66d\Xx91\X66kN\x64\X66r)N\X66t\X66\X696dN\Xx92N\Xx66|\x68\X68N\X83 
\x02\x00\x@1 | \x@0\x00d\x0@3\x008}\x00\x00q\xO3\xOOWt \xO0\x@0d\x04\xe0\x83 
\x01\x00\x@1d\x00\xeeS" 

>>> 


如 果 你 想 自 己 解释 这 段 代 码 ， 你 需要 使 用 一 些 在 opcode 模块 中 定义 的 常量 。 例 如 : 


>>> c = countdown. code .co code 
>>> import opcode 

>>> opcode.opname[c[@] ] 

>>> opcode.opname[c[@] ] 
"SETUP_LOOP'" 

>>> opcode.opname[c[3] ] 
"LOAD_FAST' 

>>> 














奇怪 的 是 ， 在 dis 模块 中 并 没有 函数 让 你 以 编程 方式 很 容易 的 来 处 理 字 节 码 。 不 过 ， 下 
面 的 生成 器 函数 可 以 将 原始 字 节 码 序列 转换 成 opcodes 和 参数 。 











import opcode 


def generate_opcodes(codebytes): 
extended_arg = 0 
i=@ 
n = len(codebytes) 
while i < n: 
op = codebytes[i] 
i += 1 
if op >= opcode.HAVE_ARGUMENT: 
oparg = codebytes[i] + codebytes[i+1]*256 + extended arg 
extended_arg = 0 
i += 2 
if op == opcode.EXTENDED_ ARG: 
extended_arg = oparg * 65536 
continue 
else: 
oparg = None 
yield (op, oparg) 


使 用 方法 如 下 : 


>>> for op, oparg in generate opcodes(countdown. code .co _ code): 
print(op, opcode.opname[op], oparg) 


这 种 方式 很 少 有 人 知道 ， 你 可 以 利用 它 蔡 换 任何 你 想 要 蔡 换 的 函数 的 原始 字 节 码 。 下面 
我 们 用 一 个 示例 来 演示 整个 过 程 : 


$ 





>>> def add(x, y): 
return x + y 


>>> c = add.__code__ 

>>> G 

<code object add at @x10@7beed@, file "<stdin>", line 1> 

>>> c.co_code 

b' |\x00\ xoa | \x01\x00\x17S' 

>>> 

>>> # Make a completely new code object with bogus byte code 

>>> import types 

>>> newbytecode = b'xxxxxxx' 

>>> nc = types.CodeType(c.co_argcount, c.co_kwonlyargcount, 
c.co_nlocals, c.co_stacksize, c.co_flags, newbytecode, c.co_consts, 
c.coO_names, c.co_varnames, c.co_filename, c.co_name, 
c.co_firstlineno, c.co_lnotab) 


>>> nc 
<code object add at 0x10069fe40, file "<stdin>", line 1> 
>>> add. code = nc 


>>> add(2,3) 
Segmentation fault 











你 可 以 像 这 样机 大 招 让 解释 器 奔 溃 。 但 是 ， 对 于 编写 更 高 级 优化 和 元 编程 工具 的 程序 员 来 
讲 ， 他 们 可 能 真 的 需要 重 写字 节 码 。 本 节 最 后 的 部 分 演示 了 这 个 是 怎样 做 到 的 。 你 还 可 
以 参考 另外 一 个 类 似 的 例子 : this code on ActiveState 


HTE: 模块 与 包 


模块 与 包 是 任何 大 型 程序 的 核心 ， 就 连 Python 安装 程序 本 身 也 是 一 个 包 。 本 章 重 点 涉及 
有 关 模 块 和 包 的 常用 编程 技术 ， 例 如 如 何 组 织 包 、 把 大 型 模块 分 割 成 多 个 文件 、 创 建 命 名 
空间 包 。 同 时 ， 也 给 出 了 让 你 自 定义 导入 语句 的 秘籍 。 



































Contents: 
10.1 构建 一 个 模块 的 层级 包 
问题 


你 想 将 你 的 代码 组 织 成 由 很 多 分 层 模块 构成 的 包 。 


解决 方案 





封装 成 包 是 很 简单 的 。 在 文件 系统 上 组 织 你 的 代码 ， 并 确保 每 个 目录 都 定义 了 一 个 
init .py 文件 。 例 如 : 


graphics/ 
__ init__.py 
primitive/ 

__init__.py 

line.py 
fill.py 
text.py 

formats/ 
__init__.py 
png. py 
jpg-py 


一 县 你 做 到 了 这 一 点 ， 你 应 该 能 够 执行 各 种 import 语 句 ， 如 下 : 


import graphics.primitive.line 
from graphics.primitive import line 
import graphics.formats.jpg as jpg 


讨论 


定义 模块 的 层次 结构 就 像 在 文件 系统 上 建立 目录 结构 一 样 容 易 。 文 件 _init_.py 的 目的 是 
要 包含 不 同 运行 级 别 的 包 的 可 选 的 初始 化 代码 。 举 个 例子 ， 如 果 你 执行 了 语句 import 
graphics, 文件 graphics/_init_ .py 将 被 导入 ,建立 graphics 命 名 空间 的 内 容 。 像 import 
graphics.format.jpg 这 样 导 入 ， 文 件 graphics/_init_.py 和 文件 
graphics/graphics/formats/_init_ .py 将 在 文件 graphics/formats/jpg.py 导 入 之 前 导入 。 





绝 大 部 分 时 候 让 _init_.py 空 着 就 好 。 但 是 有 些 情况 下 可 能 包含 代码 。 举 个 例子 ， 
_init_ .py 能够 用 来 自动 加 载 子 模块 : 


# graphics/formats/__init__.py 
from . import jpg 
from . import png 


像 这 样 一 个 文件 ,用 户 可 以 仅仅 通过 import grahpics.formats 来 代替 import 
graphics.formats.jpg 以 及 import graphics.formats.png. 





_init_.py 的 其 他 常用 用 法 包括 将 多 个 文件 合并 到 一 个 逻辑 命名 空间 ， 这 将 在 10.4 小 节 讨 


论 。 


敏锐 的 程序 员 会 发 现 ， 即 使 没有 _init_ .py 文件 存在 ，python 仍 然 会 导入 包 。 如 果 你 没有 
定义 _init_.py 时 ， 实 际 上 创建 了 一 个 所 请 的 “命名 空间 包 ”， 这 将 在 10.5 小 节 讨 论 。 万 物 平 
等 ， 如 果 你 着 手 创建 一 个 新 的 包 的 话 ， 包 含 一 个 _init_.py 文 件 吧 。 








10.2 控制 模块 被 全 部 导入 的 内 容 


问题 





当 使 用 from module import “ 语句 时 ， 希 望 对 从 模块 或 包 导 出 的 符号 进行 精确 控制 。 


Ws 


在 你 的 模块 中 定义 一 个 变量 _all_ 来 明确 地 列 出 需要 导出 的 内 容 。 


举 个 例子 : 


# somemoduLe.py 
def spam(): 
pass 


def grok(): 
pass 


blah = 42 
# Only export 'spam' and ‘grok’ 
all = ['spam', ‘grok'] 


讨论 


尽管 强烈 反对 使 用 from module import *, 但 是 在 定义 了 大 量变 量 名 的 模块 中 频繁 使 用 。 
如 果 你 不 做 任何 事 , 这 样 的 导入 将 会 导入 所 有 不 以 下 划 线 开头 的 。 男 一 方面 ,如 果 定 义 了 
_all_ ,那么 只 有 被 列举 出 的 东西 会 被 导出 。 























如 果 你 将 _all_ 定义 成 一 个 空 列表 ,没有 东西 将 被 导出 。 如 果 _all_ AGATE MNF, TE 
导入 时 引起 AttributeError。 





10.3 使 用 相对 路 径 名 导入 包 中 子 模块 


问题 





将 代码 组 织 成 包 , 想 用 import 语 句 从 另 一 个 包 名 没有 硬 编 码 过 的 包 的 中 导入 子 模块 。 
解决 方案 


使 用 包 的 相对 导入 ， 使 一 个 的 模块 导入 同一 个 包 的 另 一 个 模块 举 个 例子 ， 假 设 在 你 的 文 
件 系统 上 有 mypackage 包 ， 组 织 如 下 : 


mypackage/ 

__init__.py 

A/ 
__init__.py 
spam. py 
grok.py 

B/ 
__init__.py 
bar.py 


如 果 模 块 mypackage.A.spam 要 导入 同 目录 下 的 模块 grok， 它 应 该 包括 的 import 语 句 如 下 : 


# mypackage/A/spam. py 
from . import grok 





如 果 模 块 mypackage.A.spam 要 导入 不 同 目录 下 的 模块 B.bar， 它 应 该 使 用 的 import 语 名 如 
下 : 


# mypackage/A/spam.py 
from ..B import bar 





两 个 import 语 句 都 没 包 含 顶层 包 名 ， 而 是 使 用 了 spam.py 的 相对 路 径 。 


讨论 


在 包 内 ， 既 可 以 使 用 相对 路 径 也 可 以 使 用 绝对 路 径 来 导入 。 举 个 例子 : 


# mypackage/A/spam. py 

from mypackage.A import grok # OK 
from . import grok # OK 

import grok # Error (not found) 








像 mypackage.A 这 样 使 用 绝对 路 径 名 的 不 利之 处 是 这 将 顶层 包 名 硬 编码 到 你 的 源码 中 。 如 
果 你 想 重 新 组 织 它 ， 你 的 代码 将 更 脆 ， 很 难 工作 。 举 个 例子 ， 如 果 你 改变 了 包 名 ， 你 就 
必须 检查 所 有 文件 来 修正 源码 。 同样 ， 硬 编码 的 名 称 会 使 移动 代码 变 得 困难 。 举 个 例 
子 ， 也 许 有 人 想 安装 两 个 不 同 版 本 的 软件 包 ， 只 通过 名 称 区 分 它们 。 如 果 使 用 相对 导 
入 ， 那 一 切 都 ok， 然 而 使 用 绝对 路 径 名 很 可 能 会 出 问题 。 





import 语 句 的 . 和 .看 起 来 很 滑稽 ,但 它 指定 目录 名 .为 当前 目录 ，..B 为 目录 ./B。 这 种 
语法 只 适用 于 import。 举 个 例子 : 








from . import grok # OK 
import .grok # ERROR 








尽管 使 用 相对 导入 看 起 来 像 是 浏览 文件 系统 ， 但 是 不 能 到 定义 包 的 目录 之 外 。 也 就 是 说 ， 
使 用 点 的 这 种 模式 从 不 是 包 的 目录 中 导入 将 会 引发 错误 。 














最 后 ， 相 对 导入 只 适用 于 在 合适 的 包 中 的 模块 。 尤 其 是 在 顶层 的 脚本 的 简单 模块 中 ， 它 们 
将 不 起 作用 。 如 果 包 的 部 分 被 作为 脚本 直接 执行 ， 那 它们 将 不 起 作用 例如 : 





% python3 mypackage/A/spam.py # Relative imports fail 


另 一 方面 ， 如 果 你 使 用 Python 的 -m 选 项 来 执行 先前 的 脚本 ， 相 对 导入 将 会 正确 运行 。 例 
如 : 


% python3 -m mypackage.A.spam # Relative imports work 


更 多 的 包 的 相对 导入 的 背景 知识 ,请 看 PEP 328. 


10.4 将 模块 分 割 成 多 个 文件 


问题 





你 想 将 一 个 模块 分 割 成 多 个 文件 。 但 是 你 不 想 将 分 离 的 文件 统一 成 一 个 逻辑 模块 时 使 已 有 
的 代码 遭 到 破坏 。 








程序 模块 可 以 通过 变 成 包 来 分 割 成 多 个 独立 的 文件 。 考 虑 下 下 面 简单 的 模块 : 


# mymoduLle.py 
class A: 
def spam(self): 
print('A.spam' ) 


class B(A): 
def bar(self): 
print('B.bar') 


假设 你 想 mymodule.py 分 为 两 个 文件 ， 每 个 定义 的 一 个 类 。 要 做 到 这 一 点 ， 首 先 用 
mymodule 目 录 来 蔡 换 文件 mymodule.py。 这 这 个 目录 下 ， 创 建 以 下 文件 : 


mymodule/ 


-init epy 
a. py 
b. py 
在 a.py 文 件 中 插入 以 下 代码 : 
# a.py 
class A: 


def spam(self): 
print('A.spam' ) 


在 b.py 文 件 中 插入 以 下 代码 : 


# b.py 
from .a import A 


class B(A): 
def bar(self): 
print('B.bar') 


最 后 ， 在 _init_.py 中 ， 将 2 个 文件 粘 合 在 一 起 : 


# init .py 
from .a import A 
from .b import B 


如 果 按 照 这 些 步 又 ， 所 产生 的 包 MyModule 将 作为 一 个 单一 的 逻辑 模块 : 


>>> import mymodule 
>>> a = mymodule.A() 
>>> a.spam() 


A.spam 

>>> b = mymodule.B() 
>>> b.bar() 

B.bar 

>>> 


讨论 





在 这 个 章节 中 的 主要 问题 是 一 个 设计 问题 ， 不 管 你 是 否 希望 用 户 使 用 很 多 小 模块 或 只 是 一 
个 模块 。 举 个 例子 ， 在 一 个 大 型 的 代码 库 中 ， 你 可 以 将 这 一 切 都 分 割 成 独立 的 文件 ， 让 用 
户 使 用 大 量 的 import 语 句 ， 就 像 这 样 : 





from mymodule.a import A 
from mymodule.b import B 


， 但 这 让 用 户 承 受 更 多 的 负担 ， 用 户 要 知道 不 同 的 部 分 位 于 何 处 。 通 常情 况 
下 ， 将 这 些 统一 起 来 ， 使 用 一 条 import 将 更 加 容易 ， 就 像 这 样 : 


from mymodule import A, B 











对 后 者 而 言 ， 让 mymodule 成 为 一 个 大 的 源 文件 是 最 常见 的 。 但 是 ， 这 一 章节 展示 了 如 何 
合并 多 个 文件 合并 成 一 个 单一 的 逻辑 命名 空间 。 这 样 做 的 关键 是 创建 一 个 包 目 录 ， 使 用 
_init_.py 文件 来 将 每 部 分 粘 合 在 一 起 。 




















当 一 个 模块 被 分 割 ， 你 需要 特别 注意 交叉 引用 的 文件 名 。 举 个 例子 ， 在 这 一 章节 中 ，B 类 
需要 访问 A 类 作为 基 类 。 用 包 的 相对 导入 from.aimport 人 A 来 获取 。 





整个 章节 都 使 用 包 的 相对 导入 来 避免 将 顶层 模块 名 硬 编 码 到 源 代码 中 。 这 使 得 重 命名 模块 
或 者 将 它 移 动 到 别 的 位 置 更 容易 。〈 见 10.3 小 节 ) 


作为 这 一 章节 的 延伸 ， 将 介绍 延迟 导入 。 如 图 所 示 ，_init_.py 文 件 一 次 导入 所 有 必需 的 
组 件 的 。 但 是 对 于 一 个 很 大 的 模块 ， 可 能 你 只 想 组 件 在 需要 时 被 加 载 。 要 做 到 这 一 点 ， 
_init_.py 有 细微 的 变化 : 





# init .py 


def A(): 
from .a import A 
return A() 

def B(): 


from .b import B 
return B() 





在 这 个 版 本 中 ， 类 A 和 类 B 被 蔡 换 为 在 第 一 次 访问 时 加 载 所 需 的 类 的 函数 。 对 于 用 户 ， 这 
看 起 来 不 会 有 太 大 的 不 同 。 例如 ; 


>>> import mymodule 
>>> a = mymodule.A() 
>>> a.spam() 

A.spam 

>>> 


延迟 加 载 的 主要 缺点 是 继承 和 类 型 检查 可 能 会 中 断 。 你 可 能 会 稍微 改变 你 的 代码 ， 例 如 : 


if isinstance(x, mymodule.A): # Error 


if isinstance(x, mymodule.a.A): # Ok 


延迟 加 载 的 真实 例子 , 见 标 准 库 multiprocessing/_init_.py 的 源码 . 





10.5 利用 命名 空间 导入 目录 分 散 的 代码 


问题 





你 可 能 有 大 量 的 代码 ， 由 不 同 的 人 来 分 散 地 维护 。 每 个 部 分 被 组 织 为 文件 目录 ， 如 一 个 
包 。 然 而 ， 你 希望 能 用 共同 的 包 前 绥 将 所 有 组 件 连接 起 来 ， 不 是 将 每 一 个 部 分 作为 独立 的 
包 来 安装 。 








解决 方案 


从 本 质 上 讲 ， 你 要 定义 一 个 顶级 Python 包 ， 作 为 一 个 大 集合 分 开 维护 子 包 的 命名 空间 。 
这 个 问题 经 常 出 现在 大 的 应 用 框架 中 ， 框 光 开 发 者 希望 鼓励 用 户 发 布 插件 或 附加 包 。 


在 统一 不 同 的 目录 里 统一 相同 的 命名 空间 ， 但 是 要 删 去 用 来 将 组 件 联合 起 来 的 _init_.py 
文件 。 假 设 你 有 Python 代 码 的 两 个 不 同 的 目录 如 下 : 





foo-package/ 
spam/ 
blah.py 


bar-package/ 
spam/ 
grok.py 





在 这 2 个 目录 里 ， 都 有 着 共同 的 命名 空间 spam。 在 任何 一 个 目录 里 都 没有 _init_.py 文 件 。 


让 我 们 看 看 ， 如 果 将 foo-package 和 bar-package 都 加 到 python 模 块 路 径 并 尝试 导入 会 发 生 
什么 


>>> import sys 

>>> sys.path.extend(['foo-package', ‘bar-package']) 
>>> import spam.blah 

>>> import spam.grok 





两 个 不 同 的 包 目 录 被 合并 到 一 起 ， 你 可 以 导入 spam.blah 和 spam.grok， 并 且 它 们 能 够 工 
人 


讨论 





在 这 里 工作 的 机 制 被 称 为 " 包 命 名 空间 "的 一 个 特征 。 从 本 质 上 讲 ， 包 命名 空间 是 一 种 特殊 
的 封装 设计 ， 为 合并 不 同 的 目录 的 代码 到 一 个 共同 的 命名 空间 。 对 于 大 的 框架 ， 这 可 能 是 
有 用 的 ， 因 为 它 允 许 一 个 框架 的 部 分 被 单独 地 安装 下 载 。 它 也 使 人 们 能 够 轻松 地 为 这 样 的 
框架 编写 第 三 方 附 加 组 件 和 其 他 扩展 。 








包 命 名 空间 的 关键 是 确保 顶级 目录 中 没有 _init_.py 文 件 来 作为 共同 的 命名 空间 。 缺 失 
_init_.py 文 件 使 得 在 导入 包 的 时 候 会 发 生 有 趣 的 事情 : 这 并 没有 产生 错误 ， 解 释 器 创建 
了 一 个 由 所 有 包含 匹配 包 名 的 目录 组 成 的 列表 。 特 殊 的 包 命名 空间 模块 被 创建 ， 只 读 的 目 
录 列 表 副 本 被 存储 在 其 _path_ 变 量 中 。 举 个 例子 : 











>>> import spam 

>>> spam. path _ 

_NamespacePath(['foo-package/spam', ‘bar-package/spam' ]) 
>>> 


在 定位 包 的 子 组 件 时 ， 目 录 _path_ 将 被 用 到 (例如 , 当 导 入 spam.grok 或 者 spam.blah 的 时 
候 ). 








包 命 名 空间 的 一 个 重要 特点 是 任何 人 都 可 以 用 自己 的 代码 来 扩展 命名 空间 。 举 个 例子 ， 假 
设 你 自己 的 代码 目录 像 这 样 : 


my-package/ 
spam/ 
custom. py 


如 果 你 将 你 的 代码 目录 和 其 他 包 一 起 添加 到 sys.path， 这 将 无 颖 地 合并 到 别 的 spam 包 目录 
中 : 


>>> import spam.custom 
>>> import spam.grok 
>>> import spam.blah 
>>> 








一 个 包 是 否 被 作为 一 个 包 命 名 空间 的 主要 方法 是 检查 其 _file_ 属性。 如 果 没 有 ， 那 包 是 个 
命名 空间 。 这 也 可 以 由 其 字符 表现 形式 中 的 “namespace” 这 个 词 体现 出 来 。 


>>> spam. file _ 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: ‘module’ object has no attribute '_ file__' 
>>> spam 
<module 'spam' (namespace) > 
>>> 





更 多 的 包 命 名 空间 信息 可 以 查看 PEP 420. 





10.6 重新 加 载 模块 
问题 


你 想 重 新 加 载 己 经 加 载 的 模块 ， 因 为 你 对 其 源码 进行 了 修改 。 


解决 方案 


使 用 imp.reload() 来 重新 加 载 先前 加 载 的 模块 。 举 个 例子 : 


>>> import spam 

>>> import imp 

>>> imp.reload(spam) 

<module 'spam' from './spam.py'> 
>>> 


讨论 





重新 加 载 模块 在 开发 和 调试 过 程 中 常常 很 有 有 用。 但 在 生产 环境 中 的 代码 使 用 会 不 安全 ， 因 
为 它 并 不 总 是 像 您 期 望 的 那样 工作 。 


reload() 擦 除了 模块 底层 字典 的 内 容 ， 并 通过 重新 执行 模块 的 源 代码 来 刷新 它 。 模 块 对 象 
本 身 的 身份 保持 不 变 。 因 此 ， 该 操作 在 程序 中 所 有 已 经 被 导入 了 的 地 方 更 新 了 模块 。 








尽管 如 此 ，reload() 没 有 更 新 像 ”from module import name” 这 样 使 用 import 语 句 导 入 的 定 
义 。 举 个 例子 : 


# spam.py 
def bar(): 
print('bar') 


def grok(): 
print('grok') 


现在 局 动 交 互 式 会 话 : 


>>> import spam 

>>> from spam import grok 
>>> spam.bar() 

bar 

>>> grok() 

grok 

>>> 


不 退出 Python 修改 spam.py 的 源码 ， 将 grok() 函 数 改 成 这 样 : 


def grok(): 
print('New grok’) 


现在 回 到 交互 式 会 话 ， 重 新 加 载 模块 ， 尝 试 下 这 个 实验 : 


>>> import imp 

>>> imp.reload(spam) 

<module 'spam' from './spam.py'> 
>>> spam.bar() 

bar 

>>> grok() # Notice old output 

grok 

>>> spam.grok() # Notice new output 
New grok 

>>> 





在 这 个 例子 中 ， 你 看 到 有 2 个 版 本 的 grok() 函 数 被 加 载 。 通 常 来 说 ， 这 不 是 你 想 要 的 ， 而 
是 令 人 头疼 的 事 。 








因此 ， 在 生产 环境 中 可 能 需要 避免 重新 加 载 模块 。 在 交互 环境 下 调试 ， 解 释 程序 并 试图 弄 
TEE 








10.7 运行 目录 或 压缩 文件 
问题 


您 有 已 经 一 个 复杂 的 脚本 到 涉及 多 个 文件 的 应 用 程序 。 你 想 有 一 些 简单 的 方法 让 用 户 运 行 
程序 。 




















如 果 你 的 应 用 程序 已 经 有 多 个 文件 ， 你 可 以 把 你 的 应 用 程序 放 进 它 自己 的 目录 并 添加 一 个 
_main_.py 文 件 。 举 个 例子 ， 你 可 以 像 这 样 创建 目录 : 


myapplication/ 
spam.py 
bar.py 


grok.py 
__main__.py 


如 果 _main_.py 存 在 ， 你 可 以 简单 地 在 顶级 目录 运行 Python 解释 器 : 


bash % python3 myapplication 


解释 器 将 执行 _main_.py 文 件 作 为 主 程序 。 





如 果 你 将 你 的 代码 打包 成 zip 文 件 ， 这 种 技术 同样 也 适用 ， 举 个 例子 : 


bash % 1s 


spam.py bar.py grok.py __main__.py 
bash % zip -r myapp.zip *.py 
bash % python3 myapp.zip 

.. output from _ main__.py ... 


讨论 


创建 一 个 目录 或 zip 文 件 并 添加 _main_ .py 文件 来 将 一 个 更 大 的 Python 应 用 打包 是 可 行 
的 。 这 和 作为 标准 库 被 安装 到 Python 库 的 代码 包 是 有 一 点 区 别 的 。 相 反 ， 这 只 是 让 别人 
执行 的 代码 包 。 











由 于 目录 和 zip 文 件 与 正常 文件 有 一 点 不 同 ， 你 可 能 还 需要 增加 一 个 shell 脚 本 ， 使 执行 更 
加 容易 。 例 如 ， 如 果 代码 文件 名 为 myapp.zip， 你 可 以 创建 这 样 一 个 顶级 脚本 : 


#!/usr/bin/env python3 /usr/Local/bin/myapp.zip 


10.8 读 取 位 于 包 中 的 数据 文件 
问题 


你 的 包 中 包含 代码 需要 去 读 取 的 数据 文件 。 你 需要 尽 可 能 地 用 最 便捷 的 方式 来 做 这 件 事 。 


假设 你 的 包 中 的 文件 组 织 成 如 下 : 


mypackage/ 
__init__.py 
somedata.dat 
spam. py 


现在 假设 spam.py 文 件 需 要 读 取 somedata.dat 文 件 中 的 内 容 。 你 可 以 用 以 下 代码 来 完成 : 


# spam.py 
import pkgutil 


data = pkgutil.get_data(__package__, ‘somedata.dat') 


由 此 产生 的 变量 是 包含 该 文件 的 原始 内 容 的 字 节 字符 串 。 





讨论 


要 读 取 数据 文件 ， 你 可 能 会 倾向 于 编写 使 用 内 置 的 MO 功能 的 代码 ， 如 open()。 但 是 这 种 
方法 也 有 一 些 问题 。 


首先 ， 一 个 包 对 解释 器 的 当前 工作 目录 几乎 没有 控制 权 。 因 此 ， 编 程 时 任何 MO 操作 都 必 
须 使 用 绝对 文件 名 。 由 于 每 个 模块 包含 有 完整 路 径 的 _file_ 变量， 这 弄 清楚 它 的 路 径 不 是 
不 可 能 ， 但 它 很 凌乱 。 














第 二 ， 包 通常 安装 作为 .zip 或 .egg 文 件 ， 这 些 文 件 像 文件 系统 上 的 一 个 普通 目录 一 样 不 会 
被 保留 。 因 此 ， 你 试图 用 open() 对 一 个 包含 数据 文件 的 归档 文件 进行 操作 ， 它 根本 不 会 工 
作 。 


























pkgutilget_data() 函 数 是 一 个 读 取 数 据 文 件 的 高 级 工具 ， 不 用 管 包 是 如 何 安装 以 及 安装 在 
哪 。 它 只 是 工作 并 将 文件 内 容 以 字 节 字符 串 返 回 给 你 





get_data() 的 第 一 个 参数 是 包含 包 名 的 字符 串 。 你 可 以 直接 使 用 包 名 ， 也 可 以 使 用 特殊 的 
变量 ， 比 如 _package_。 第 二 个 参数 是 包 内 文件 的 相对 名 称 。 如 果 有 必要 ， 可 以 使 用 标准 
的 Unix 命 名 规范 到 不 同 的 目录 ， 只 有 最 后 的 目录 仍然 位 于 包 中 。 








10.9 将 文件 夹 加 入 到 sys.path 


问题 





你 无 法 导入 你 的 Python 代 码 因为 它 所 在 的 目录 不 在 sys.path 里 。 你 想 将 添加 新 目录 到 
Python 路 径 ， 但 是 不 想 硬 链接 到 你 的 代码 。 


有 了 两 种 常用 的 方式 将 新 目录 添加 到 sys.path。 第 一 种 ， 你 可 以 使 用 PYTHONPATH 环 境 变 
量 来 添加 。 例 如 : 


bash % env PYTHONPATH=/some/dir:/other/dir python3 

Python 3.3.0 (default, Oct 4 2012, 10:17:33) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import sys 

>>> sys.path 

['', '/some/dir', '/other/dir', ...] 

>>> 

















在 自 定义 应 用 程序 中 ， 这 样 的 环境 变量 可 在 程序 启动 时 设置 或 通过 shell 脚 本 。 


第 二 种 方法 是 创建 一 个 .pth 文 件 ， 将 目录 列举 出 来 ， 像 这 样 : 


# myappLlication.pth 
/some/dir 
/other/dir 


这 个 .pth 文 件 需要 放 在 某 个 Python 的 site-packages 目 录 ， 通 常 位 
¥/usr/local/lib/python3.3/site- packages 或 者 ~/.local/lib/python3.3/sitepackages. ~4/i# 
释 器 启动 时 ，.pth 文 件 里 列举 出 来 的 存在 于 文件 系统 的 目录 将 被 添加 到 sys.path。 安 装 一 
个 .pth 文 件 可 能 需要 管理 员 权 限 ， 如 果 它 被 添加 到 系统 级 的 Python 解释 器 。 


























讨论 








比 起 费力 地 找 文件 ， 你 可 能 会 倾向 于 写 一 个 代码 手动 调节 sys.path 的 值 。 例 如 : 


import sys 
sys.path.insert(@, '/some/dir') 
sys.path.insert(@, '/other/dir' ) 


虽然 这 能 "工作 "， 它 是 在 实践 中 极为 脆弱 ， 应 尽量 避免 使 用 。 这 种 方法 的 问题 是 ， 它 将 目 
录 名 硬 编码 到 了 你 的 源 。 如 果 你 的 代码 被 移 到 一 个 新 的 位 置 ， 这 会 导致 维护 问题 。 更 好 的 
做 法 是 在 不 修改 源 代码 的 情况 下 ， 将 path 配 置 到 其 他 地 方 。 如 果 您 使 用 模块 级 的 变量 来 精 
心 构造 一 个 适当 的 绝对 路 径 ， 有 时 你 可 以 解决 硬 编码 目录 的 问题 ， 比 如 _file_。 举 个 例 
T: 

















import sys 
from os.path import abspath, join, dirname 
sys.path.insert(@, abspath(dirname(' file‘), ‘src')) 








这 将 src 目 录 添 加 到 path 里 ， 和 执行 插入 步骤 的 代码 在 同一 个 目录 里 。 














site-packages 目 录 是 第 三 方 包 和 模块 安装 的 目录 。 如 果 你 手动 安装 你 的 代码 ， 它 将 被 安装 
到 site-packages 目 录 。 虽 然 .pth 文 件 配置 的 path 必 须 出 现在 site-packages 里 ， 但 代码 可 以 
在 系统 上 任何 你 想 要 的 目录 。 因 此 ， 你 可 以 把 你 的 代码 放 在 一 系列 不 同 的 目录 ， 只 要 那些 
目录 包含 在 .pth 文 件 里 。 











10.10 通过 字符 品名 导入 模块 
问题 


你 想 导 入 一 个 模块 ， 但 是 模块 的 名 字 在 字符 串 里 。 你 想 对 字符 串 调 用 导入 命令 。 


解决 方案 





使 用 importlib.import_module() 函 数 来 手动 导入 名 字 为 字符 串 给 出 的 一 个 模块 或 者 包 的 一 
部 分 。 举 个 例子 : 


>>> import importlib 

>>> math = importlib.import_module('math' ) 

>>> math.sin(2) 

@.9092974268256817 

>>> mod = importlib.import_module('urllib.request') 
>>> u = mod.urlopen('http://www.python.org' ) 

>>> 


import module 只 是 简单 地 执行 和 import 相 同 的 步骤 ， 但 是 返回 生成 的 模块 对 象 。 你 只 需 
要 将 其 存储 在 一 个 变量 ， 然 后 像 正常 的 模块 一 样 使 用 。 





如 果 你 正在 使 用 的 包 ，import module() 也 可 用 于 相对 导入 。 但 是 ， 你 需要 给 它 一 个 额外 
的 参数 。 例 如 : 


import importlib 
# Same as ‘from . import b' 
b = importlib.import_module('.b', _ package ) 


讨论 


使 用 import module() 手 动 导 入 模块 的 问题 通常 出 现在 以 茶 种 方式 编写 修改 或 覆盖 模块 的 
代码 时 候 。 例 如 ， 也 许 你 正在 执行 茶 种 自 定 义 导 入 机 制 ， 需 要 通过 名 称 来 加 载 一 个 模块 ， 
通过 补丁 加 载 代 码 。 








在 旧 的 代码 ， 有 时 你 会 看 到 用 于 导入 的 内 建 函 数 _import_()。 尽 管 它 能 工作 ， 但 是 
importlib.import_module() 通常 更 容易 使 用 。 





自 定义 导入 过 程 的 高 级 实例 见 10.11 小 节 


10.11 通过 导入 钩子 远程 加 载 模块 
问题 


You would like to customize Python's import statement so that it can transparently load 
modules from a remote machine. 


First, a serious disclaimer about security. The idea discussed in this recipe would be wholly 
bad without some kind of extra security and authentication layer. That said, the main goal is 
actually to take a deep dive into the inner workings of Python’s import statement. If you get 
this recipe to work and understand the inner workings, you'll have a solid foundation of 
customizing import for almost any other purpose. With that out of the way, let’s carry on. 


At the core of this recipe is a desire to extend the functionality of the import statement. 
There are several approaches for doing this, but for the purposes of illustration, start by 
making the following directory of Python code: 


testcode/ 
spam. py 
fib.py 
grok/ 
__init__.py 
blah.py 


The content of these files doesn’t matter, but put a few simple statements and functions in 
each file so you can test them and see output when they’re imported. For example: 


# spam.py 
print("I'm spam") 


def hello(name): 
print('Hello %s' % name) 


# fib.py 
print("I'm fib") 


def fib(n): 
if n < 2: 
return 1 
else: 
return fib(n-1) + fib(n-2) 


# grok/__init__.py 
print("I'm grok. _init__") 


# grok/bLah. py 
print("I'm grok.blah") 


The goal here is to allow remote access to these files as modules. Perhaps the easiest way to 
do this is to publish them on a web server. Simply go to the testcode directory and run 
Python like this: 


bash % cd testcode 
bash % python3 -m http.server 15000 
Serving HTTP on 0.0.0.0 port 15000 ... 


Leave that server running and start up a separate Python interpreter. Make sure you can 
access the remote files using urllib. For example: 


>>> from urllib.request import urlopen 

>>> u = urlopen('http://localhost:15000/fib.py' ) 
>>> data = u.read().decode('utf-8') 

>>> print(data) 

# fib.py 

print("I'm fib") 


def fib(n): 
if n< 2: 
return 1 
else: 
return fib(n-1) + fib(n-2) 
>>> 


Loading source code from this server is going to form the basis for the remainder of this 
recipe. Specifically, instead of manually grabbing a file of source code using urlop en(), the 
import statement will be customized to do it transparently behind the scenes. 


The first approach to loading a remote module is to create an explicit loading function for 
doing it. For example: 


import imp 
import urllib.request 
import sys 


def load_module(url): 
u = urllib.request.urlopen(url) 
source = u.read().decode( utf-8 ') 
mod = sys.modules.setdefault(url, imp.new_module(ur1) ) 
code = compile(source, url, ‘exec') 
mod. file = url 
mod. package = '' 
exec(code, mod. dict ) 


return mod 


This function merely downloads the source code, compiles it into a code object using 
compile(), and executes it in the dictionary of a newly created module object. Here’s how 
you would use the function: 


>>> fib = load_module('http://localhost:15000/fib.py' ) 


I'm fib 

>>> fib.fib(16) 

89 

>>> spam = load_module('http://localhost:15000/spam.py' ) 
I'm spam 


>>> spam.hello('Guido' ) 

Hello Guido 

>>> fib 

<module 'http://localhost:15000/fib.py' from 'http://localhost:15000/fib.py'> 
>>> spam 

<module 'http://localhost:15000/spam.py' from ‘http://localhost:15000/spam.py'> 
>>> 


As you can see, it “works” for simple modules. However, it’s not plugged into the usual 
import statement, and extending the code to support more advanced constructs, such as 
packages, would require additional work. 


A much slicker approach is to create a custom importer. The first way to do this is to create 
what’s known as a meta path importer. Here is an example: 


# urLlimport.py 

import sys 

import importlib.abc 

import imp 

from urllib.request import urlopen 

from urllib.error import HTTPError, URLError 
from html.parser import HTMLParser 


# Debugging 
import logging 
log = logging.getLogger(__name__ ) 


# Get Links from a given URL 
def _get_links(url): 
class LinkParser(HTMLParser): 
def handle_starttag(self, tag, attrs): 


if tag == 'a 
attrs = dict(attrs) 
links.add(attrs.get('href').rstrip('/')) 

links = set() 
try: 
log.debug('Getting links from %s' % url) 
u = urlopen(ur1) 
parser = LinkParser() 
parser. feed(u.read().decode('utf-8')) 
except Exception as e: 
log.debug('Could not get links. %s', e) 
log.debug('links: %r', links) 
return links 


class UrlMetaFinder(importlib.abc.MetaPathFinder): 
def __init__(self, baseurl1): 
self. _baseurl = baseurl 
self._links = { } 
self. _loaders = { baseurl : UrlModuleLoader(baseurl) } 


def find_module(self, fullname, path=None): 

log.debug('find_ module: fullname=%r, path=%r', fullname, path) 
if path is None: 

baseurl = self. _baseurl 
else: 

if not path[@].startswith(self. baseurl): 

return None 

baseurl = path[@] 
parts = fullname.split('.') 
basename = parts[-1] 
log.debug('find_module: baseurl=%r, basename=%r', baseurl, basename) 


# Check Link cache 
if basename not in self. links: 
self._links[baseurl] = _get_links(baseur1) 


# Check if it's a package 

if basename in self. _links[baseurl]: 
log.debug('find_module: trying package %r', fullname) 
fullurl = self. _baseurl + '/' + basename 
# Attempt to Load the package (which accesses __init__.py) 


loader = UrlPackageLoader(fullur1l) 

try: 
loader.load_module(fullname) 
self._links[fullurl] = _get_links(fullur1) 
self. _loaders[fullurl] = UrlModuleLoader(fullur1l) 
log.debug('find_ module: package %r loaded’, fullname) 

except ImportError as e: 
log.debug('find_module: package failed. %s', e) 
loader = None 

return loader 

# A normal module 


filename = basename + '.py 

if filename in self. _links[baseurl]: 
log.debug('find_module: module %r found', fullname) 
return self. loaders[baseurl ] 

else: 
log.debug('find_module: module %r not found’, fullname) 


return None 


def invalidate_caches(self): 
log.debug('invalidating link cache') 
self._links.clear() 


# Module Loader for a URL 
class UrlModuleLoader(importlib.abc.SourceLoader): 
def __init__(self, baseurl): 
self. _baseurl = baseurl 
self. _source_cache = {} 


def module_repr(self, module): 
return ‘<urlmodule %r from %r>' % (module.__name__, module. file ) 


# Required method 
def load_module(self, fullname): 
code = self.get_code(fullname) 
mod = sys.modules.setdefault(fullname, imp.new_module(fullname) ) 


mod. file = self.get_filename(fullname) 
mod. loader = self 
mod. package _ = fullname.rpartition('.')[@] 


exec(code, mod. dict ) 
return mod 


# Optional extensions 
def get code(self, fullname): 
src = self.get source(fullname) 
return compile(src, self.get filename(fullname), ‘exec') 


def get_data(self, path): 
pass 


def get_filename(self, fullname): 
return self. baseurl + '/' + fullname.split('.')[-1] + .py 


def get_source(self, fullname): 
filename = self.get_filename(fullname) 
log.debug('loader: reading %r', filename) 
if filename in self. source_cache: 
log.debug('loader: cached %r', filename) 


return self. source_cache[ filename] 
try: 
u = urlopen(filename) 
source = u.read().decode('utf-8') 
log.debug( ‘loader: %r loaded’, filename) 
self. _source_cache[filename] = source 
return source 
except (HTTPError, URLError) as e: 
log.debug('loader: %r failed. %s', filename, e) 
raise ImportError( "Can't load %s" % filename) 


def is_package(self, fullname): 
return False 


# Package Loader for a URL 
class UrlPackageLoader(UrlModuleLoader): 
def load_module(self, fullname): 
mod = super().load_module(fullname) 
mod. path = [ self._baseurl | 
mod. __ package = fullname 


def get_filename(self, fullname): 


return self._baseurl + '/' + '__init__.py 
def is_package(self, fullname): 
return True 


# Utility functions for installing/uninstalling the Loader 
_installed_meta_cache = { } 
def install_meta(address): 
if address not in _installed_meta_cache: 
finder = UrlMetaFinder(address) 
_installed_meta_cache[address] = finder 
sys.meta_path.append(finder) 
log.debug('%r installed on sys.meta_path', finder) 


def remove_meta(address): 
if address in _installed_meta_cache: 
finder = _installed_meta_cache.pop(address) 
sys.meta_path.remove(finder) 
log.debug('%r removed from sys.meta_path', finder) 


Here is an interactive session showing how to use the preceding code: 


>>> # importing currently fails 

>>> import fib 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 

>>> # Load the importer and retry (it works) 
>>> import urlimport 

>>> urlimport.install_meta('http://localhost:15000' ) 
>>> import fib 

I'm fib 

>>> import spam 

I'm spam 

>>> import grok.blah 

I'm grok. init _ 

I'm grok.blah 

>>> grok.blah. file _ 
“http://localhost:15000/grok/blah.py' 

>>> 


This particular solution involves installing an instance of a special finder object UrlMe 
taFinder as the last entry in sys.meta_path. Whenever modules are imported, the finders in 
sys.meta_path are consulted in order to locate the module. In this example, the 
UrlMetaFinder instance becomes a finder of last resort that’s triggered when a module can’t 
be found in any of the normal locations. 


As for the general implementation approach, the UrlMetaFinder class wraps around a user- 
specified URL. Internally, the finder builds sets of valid links by scraping them from the 
given URL. When imports are made, the module name is compared against this set of known 
links. If a match can be found, a separate UrlModuleLoader class is used to load source code 
from the remote machine and create the resulting module object. One reason for caching 
the links is to avoid unnecessary HTTP requests on repeated imports. 


The second approach to customizing import is to write a hook that plugs directly into the 
sys.path variable, recognizing certain directory naming patterns. Add the following class 
and support functions to urlimport.py: 


# urLlimport. py 

# ... tnclude previous code above ... 

# Path finder class for a URL 

class UrlPathFinder(importlib.abc.PathEntryFinder): 

def __init__(self, baseurl): 

self._links = None 
self. loader = UrlModuleLoader(baseurl1) 
self. _baseurl = baseurl 


def find_loader(self, fullname): 
log.debug('find_loader: %r', fullname) 
parts = fullname.split('.') 


basename = parts[-1] 

# Check Link cache 

if self. links is None: 
self. links 
self. links 


[] # See discussion 


_get_links(self._baseurl1) 


# Check if it's a package 
if basename in self. links: 
log.debug('find_loader: trying package %r', fullname) 
fullurl = self._baseurl + '/' + basename 
# Attempt to Load the package (which accesses __init__.py) 
loader = UrlPackageLoader(fullur1) 
try: 
loader.load_module(fullname) 
log.debug('find_ loader: package %r loaded', fullname) 
except ImportError as e: 
log.debug('find_ loader: %r is a namespace package’, fullname) 
loader = None 
return (loader, [fullurl]) 


# A normal module 


filename = basename + '.py 
if filename in self. links: 
log.debug('find_loader: module %r found’, fullname) 
return (self._loader, []) 
else: 
log.debug('find_loader: module %r not found’, fullname) 


return (None, []) 


def invalidate_caches(self): 
log.debug('invalidating link cache') 
self._links = None 


# Check path to see if it Looks Like a URL 
_url_path_cache = {} 


def 


def 


def 


handle_url(path): 
if path.startswith(('http://', ‘https://')): 
log.debug('Handle path? %s. [Yes]', path) 
if path in _url_path_cache: 
finder = _url_path_cache[path] 
else: 
finder 


UrlPathFinder (path) 
_url_path_cache[path] = finder 
return finder 
else: 
log.debug( ‘Handle path? %s. [No]', path) 


install_path_hook(): 
sys.path_hooks.append(handle_url) 
sys.path_importer_cache.clear() 
log.debug('Installing handle_url') 


remove_path_hook(): 
sys.path_hooks.remove(handle_url) 
sys.path_importer_cache.clear() 
log.debug('Removing handle_url') 


To use this path-based finder, you simply add URLs to sys.path. For example: 


>>> # Initial import fails 
>>> import fib 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Install the path hook 
>>> import urlimport 
>>> urlimport.install_path_hook() 


>>> # Imports still fail (not on path) 
>>> import fib 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Add an entry to sys.path and watch it work 
>>> import sys 

>>> sys.path.append('http://localhost:15000' ) 
>>> import fib 

I'm fib 

>>> import grok.blah 

I'm grok.__init__ 

I'm grok.blah 

>>> grok.blah. file _ 
"http://localhost:15000/grok/blah.py' 

>>> 


The key to this last example is the handle_url() function, which is added to the 
sys.path_hooks variable. When the entries on sys.path are being processed, the functions in 
sys.path_hooks are invoked. If any of those functions return a finder object, that finder is 
used to try to load modules for that entry on sys.path. 


It should be noted that the remotely imported modules work exactly like any other module. 
For instance: 


>>> fib 

<urlmodule 'fib' from 'http://localhost:15000/fib.py'> 
>>> fib. name _ 

'fib' 

>>> fib. file — 

'http://localhost:15000/fib.py' 

>>> import inspect 

>>> print(inspect.getsource(fib)) 

# fib.py 

print("I'm fib") 


def fib(n): 
if n< 2: 
return 1 
else: 
return fib(n-1) + fib(n-2) 
>>> 


讨论 


Before discussing this recipe in further detail, it should be emphasized that Python's 
module, package, and import mechanism is one of the most complicated parts of the entire 
language—often poorly understood by even the most seasoned Python programmers 
unless they've devoted effort to peeling back the covers. There are several critical 
documents that are worth reading, including the documentation for the importlib module 
and PEP 302. That documentation won't be repeated here, but some essential highlights 
will be discussed. 


First, if you want to create a new module object, you use the imp.new_module() function. 
For example: 


>>> import imp 

>>> m = imp.new_module('spam' ) 
>>> m 

<module 'spam'> 

>>> ms. name__ 

"spam" 

>>> 


Module objects usually have a few expected attributes, including _ file__ (the name of the 
file that the module was loaded from) and _ package_ (the name of the enclosing package, if 
any). 


Second, modules are cached by the interpreter. The module cache can be found in the 
dictionary sys.modules. Because of this caching, it’s common to combine caching and 
module creation together into a single step. For example: 


>>> import sys 

>>> import imp 

>>> m = sys.modules.setdefault('spam', imp.new_module('spam' )) 
>>> m 

<module 'spam'> 

>>> 


The main reason for doing this is that if a module with the given name already exists, you'll 
get the already created module instead. For example: 


>>> import math 

>>> m = sys.modules.setdefault('math', imp.new_module('math' )) 

>>> m 

<module 'math' from '/usr/local/lib/python3.3/1lib-dynload/math.so'> 
>>> m.sin(2) 

@.9092974268256817 

>>> m.cos(2) 

-@.4161468365471424 

>>> 


Since creating modules is easy, it is straightforward to write simple functions, such as the 
load_module() function in the first part of this recipe. A downside of this approach is that it 
is actually rather tricky to handle more complicated cases, such as package imports. In order 
to handle a package, you would have to reimplement much of the underlying logic that’s 
already part of the normal import statement (e.g., checking for directories, looking for 

_ init__.py files, executing those files, setting up paths, etc.). This complexity is one of the 
reasons why it’s often better to extend the import statement directly rather than defining a 
custom function. 


Extending the import statement is straightforward, but involves a number of moving parts. 
At the highest level, import operations are processed by a list of “meta-path” finders that 
you can find in the list sys.meta_path. If you output its value, you'll see the following: 


>>> from pprint import pprint 

>>> pprint(sys.meta_path) 

[<class '_frozen_importlib.BuiltinImporter'>, 
<class '_frozen_importlib.FrozenImporter'>, 
<class '_frozen_importlib.PathFinder'>] 

>>> 


When executing a statement such as import fib, the interpreter walks through the finder 


objects on sys.meta_path and invokes their find_module() method in order to locate an 


appropriate module loader. It helps to see this by experimentation, so define the following 


class and try the following: 


>>> class Finder: 


def 


find_module(self, fullname, path): 
print('Looking for’, fullname, path) 
return None 


>>> import sys 


>>> sys.meta_path.insert(@, Finder()) # Insert as first entry 


>>> import math 


Looking for math None 


>>> import types 


Looking for types None 


>>> import threading 


Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
>>> 


for 
for 
for 
for 
for 
for 


threading None 
time None 
traceback None 
linecache None 
tokenize None 
token None 


Notice how the find_module() method is being triggered on every import. The role of the 


path argument in this method is to handle packages. When packages are imported, it is a list 


of the directories that are found in the package’s _ path__ attribute. These are the paths that 


need to be checked to find package subcomponents. For example, notice the path setting 


for xml.etree and xml.etree.ElementTree: 


>>> import xml.etree.ElementTree 


Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
Looking 
>>> 


for 
for 
for 
for 
for 
for 
for 
for 
for 
for 
for 


xml None 

xml.etree ['/usr/local/lib/python3.3/xml1' ] 
xml.etree.ElementTree ['/usr/local/lib/python3.3/xml/etree' ] 
warnings None 

contextlib None 

xml.etree.ElementPath ['/usr/local/lib/python3.3/xml/etree' ] 
_elementtree None 

copy None 

org None 

pyexpat None 

ElementC14N None 


The placement of the finder on sys.meta_path is critical. Remove it from the front of the list 


to the end of the list and try more imports: 


>>> del sys.meta_path[@] 

>>> sys.meta_path.append(Finder()) 
>>> import urllib.request 

>>> import datetime 


Now you don’t see any output because the imports are being handled by other entries in 
sys.meta_path. In this case, you would only see it trigger when nonexistent modules are 
imported: 


>>> import fib 
Looking for fib None 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 
>>> import xml.superfast 
Looking for xml.superfast ['/usr/local/lib/python3.3/xml1' ] 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'xml.superfast' 
>>> 


The fact that you can install a finder to catch unknown modules is the key to the 
UrlMetaFinder class in this recipe. An instance of UrlMetaFinder is added to the end of 
sys.meta_path, where it serves as a kind of importer of last resort. If the requested module 
name can't be located by any of the other import mechanisms, it gets handled by this finder. 
Some care needs to be taken when handling packages. Specifically, the value presented in 
the path argument needs to be checked to see if it starts with the URL registered in the 
finder. If not, the submodule must belong to some other finder and should be ignored. 


Additional handling of packages is found in the UrlPackageLoader class. This class, rather 
than importing the package name, tries to load the underlying _ init__.py file. It also sets the 
module _path_ attribute. This last part is critical, as the value set will be passed to 
subsequent find_module() calls when loading package submodules. The path-based import 
hook is an extension of these ideas, but based on a somewhat different mechanism. As you 
know, sys.path is a list of directories where Python looks for modules. For example: 


>>> from pprint import pprint 

>>> import sys 

>>> pprint(sys.path) 

[es 

"/usr/local/lib/python33.zip', 
"/usr/local/lib/python3.3', 
"/usr/local/lib/python3.3/plat-darwin', 
"/usr/local/lib/python3.3/lib-dynload', 
"/usr/local/lib/...3.3/site-packages' ] 
>>> 


Each entry in sys.path is additionally attached to a finder object. You can view these finders 
by looking at sys.path_importer_cache: 


>>> pprint(sys.path_importer_cache) 

{'.': FileFinder('.'), 

‘/usr/local/lib/python3.3': FileFinder('/usr/local/lib/python3.3'), 
"/usr/local/lib/python3.3/': FileFinder('/usr/local/lib/python3.3/'), 
"/usr/local/lib/python3.3/collections': FileFinder('...python3.3/collections'), 
"/usr/local/lib/python3.3/encodings': FileFinder('...python3.3/encodings'), 
"/usr/local/1lib/python3.3/lib-dynload': FileFinder('...python3.3/lib-dynload'), 
‘/usr/local/lib/python3.3/plat-darwin': FileFinder('...python3.3/plat-darwin'), 
"/usr/local/lib/python3.3/site-packages': FileFinder('...python3.3/site-packages'), 
‘/usr/local/lib/python33.zip': None} 

>>> 


sys.path_importer_cache tends to be much larger than sys.path because it records finders 
for all known directories where code is being loaded. This includes subdirectories of 
packages which usually aren’t included on sys.path. 


To execute import fib, the directories on sys.path are checked in order. For each directory, 
the name fib is presented to the associated finder found in sys.path_im porter_cache. This is 
also something that you can investigate by making your own finder and putting an entry in 
the cache. Try this experiment: 


>>> 


class Finder: 


. def find_loader(self, name): 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


print('Looking for', name) 
return (None, []) 


import sys 

# Add a "debug" entry to the importer cache 
sys.path_importer_cache['debug'] = Finder() 
# Add a "debug" directory to sys.path 
sys.path.insert(@, ‘debug’ ) 

import threading 


Looking for threading 


Looking for time 


Looking for traceback 


Looking for linecache 


Looking for tokenize 


Looking for token 


>>> 


Here, 
as the first entry on sys.path. On all subsequent imports, you see your finder being 
triggered. However, since it returns (None, []), processing simply continues to the next 
entry. 


The population of sys.path_importer_cache is controlled by a list of functions stored in 
sys.path_hooks. Try this experiment, which clears the cache and adds a new path checking 


you've installed a new cache entry for the name debug and installed the name debug 


function to sys.path_hooks: 


>>> 
>>> 


>>> 
>>> 


sys.path_importer_cache.clear() 
def check_path(path): 
print( ‘Checking’, path) 
raise ImportError() 


sys.path_hooks.insert(@, check_path) 
import fib 


Checked debug 

Checking . 

Checking /usr/local/lib/python33.zip 

Checking /usr/local/lib/python3.3 

Checking /usr/local/lib/python3.3/plat-darwin 
Checking /usr/local/lib/python3.3/lib-dynload 


Checking 


Checking /usr/local/lib/python3.3/site-packages 
Looking for fib 


Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 


ImportError: No module named 'fib' 


>>> 


/Users/beazley/.local/lib/python3.3/site-packages 


As you can see, the check_path() function is being invoked for every entry on sys.path. 
However, since an ImportError exception is raised, nothing else happens (checking just 
moves to the next function on sys.path_hooks). 


Using this knowledge of how sys.path is processed, you can install a custom path checking 
function that looks for filename patterns, such as URLs. For instance: 


>>> def check_url(path): 
if path.startswith('http://'): 
return Finder() 
else: 
raise ImportError() 


>>> sys.path.append('http://localhost:15000' ) 
>>> sys.path_hooks[@] = check_url 
>>> import fib 
Looking for fib # Finder output! 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Notice installation of Finder in sys.path_importer_cache 
>>> sys.path_importer_cache[‘http://localhost:150@0' ] 
<__main__.Finder object at 0x10064c850> 

>>> 


This is the key mechanism at work in the last part of this recipe. Essentially, acustom path 
checking function has been installed that looks for URLs in sys.path. When they are 
encountered, a new UrlPathFinder instance is created and installed into 
sys.path_importer_cache. From that point forward, all import statements that pass through 
that part of sys.path will try to use your custom finder. 


Package handling with a path-based importer is somewhat tricky, and relates to the return 
value of the find_loader() method. For simple modules, find_loader() returns a tuple (loader, 
None) where loader is an instance of a loader that will import the module. 


For anormal package, find_loader() returns a tuple (loader, path) where loader is the loader 
instance that will import the package (and execute _ init__.py) and path is a list of the 
directories that will make up the initial setting of the package’s _ path__ attribute. For 
example, if the base URL was http://localhost:15000 and a user executed import grok, the 
path returned by find_loader() would be [ ‘http://local host:15000/grok’ J. 


The find_loader() must additionally account for the possibility of anamespace package. A 
namespace package is a package where a valid package directory name exists, but no 

_ init__.py file can be found. For this case, find_loader() must return a tuple (None, path) 
where path is a list of directories that would have made up the package’s _ path_ attribute 


had it defined an _ init__.py file. For this case, the import mechanism moves on to check 
further directories on sys.path. If more namespace packages are found, all of the resulting 
paths are joined together to make a final namespace package. See Recipe 10.5 for more 
information on namespace packages. 


There is a recursive element to package handling that is not immediately obvious in the 
solution, but also at work. All packages contain an internal path setting, which can be found 
in _path_ attribute. For example: 


>>> import xml.etree.ElementTree 

>>> xml.__ path __ 
['/usr/local/lib/python3.3/xm1' ] 

>>> xml.etree. path __ 
['/usr/local/lib/python3.3/xml/etree' ] 
>>> 


As mentioned, the setting of _ path_ is controlled by the return value of the find_load er() 
method. However, the subsequent processing of _ path_ is also handled by the functions in 
sys.path_hooks. Thus, when package subcomponents are loaded, the entries in_ path_ are 
checked by the handle_url() function. This causes new instances of UrlPathFinder to be 
created and added to sys.path_importer_cache. 


One remaining tricky part of the implementation concerns the behavior of the han dle_url() 
function and its interaction with the _get_links() function used internally. If your 
implementation of a finder involves the use of other modules (e.g., urllib.re quest), there is a 
possibility that those modules will attempt to make further imports in the middle of the 
finder’s operation. This can actually cause handle_url() and other parts of the finder to get 
executed in a kind of recursive loop. To account for this possibility, the implementation 
maintains a cache of created finders (one per URL). This avoids the problem of creating 
duplicate finders. In addition, the following fragment of code ensures that the finder doesn’t 
respond to any import requests while it’s in the processs of getting the initial set of links: 


# Check Link cache 
if self. links is None: 
self. links = [] # See discussion 
self. links = _get_links(self. _baseurl) 


You may not need this checking in other implementations, but for this example involving 
URLs, it was required. 


Finally, the invalidate_caches() method of both finders is a utility method that is supposed 
to clear internal caches should the source code change. This method is triggered when a 
user invokes importlib.invalidate_caches(). You might use it if you want the URL importers 
to reread the list of links, possibly for the purpose of being able to access newly added files. 


In comparing the two approaches (modifying sys.meta_path or using a path hook), it helps 
to take a high-level view. Importers installed using sys.meta_path are free to handle 
modules in any manner that they wish. For instance, they could load modules out of a 
database or import them in a manner that is radically different than normal 
module/package handling. This freedom also means that such importers need to do more 
bookkeeping and internal management. This explains, for instance, why the implementation 
of UrlMetaFinder needs to do its own caching of links, loaders, and other details. On the 
other hand, path-based hooks are more narrowly tied to the processing of sys.path. 
Because of the connection to sys.path, modules loaded with such extensions will tend to 
have the same features as normal modules and packages that programmers are used to. 


Assuming that your head hasn’t completely exploded at this point, a key to understanding 
and experimenting with this recipe may be the added logging calls. You can enable logging 
and try experiments such as this: 


>>> import logging 

>>> logging. basicConfig(level=logging.DEBUG) 

>>> import urlimport 

>>> urlimport.install_path_hook() 

DEBUG: urlimport:Installing handle_url 

>>> import fib 

DEBUG: urlimport:Handle path? /usr/local/lib/python33.zip. [No] 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

ImportError: No module named 'fib' 

>>> import sys 

>>> sys.path.append('http://localhost:150@0' ) 

>>> import fib 

DEBUG: urlimport:Handle path? http://localhost:15000. [Yes] 
DEBUG: urlimport:Getting links from http://localhost:15000 
DEBUG: urlimport:links: {'spam.py', ‘fib.py', ‘grok'} 

DEBUG: urlimport:find_loader: 'fib' 

DEBUG: urlimport:find_loader: module 'fib' found 

DEBUG: urlimport:loader: reading ‘http://localhost:15000/fib.py' 
DEBUG: urlimport:loader: ‘http://localhost:15000/fib.py' loaded 
I'm fib 

>>> 


Last, but not least, spending some time sleeping with PEP 302 and the documentation for 
importlib under your pillow may be advisable. 


10.12 导入 模块 的 同时 修改 模块 


问题 


Youwantto patch orapply decorators to functions in an existing module.However you 
only want to do it if the module actually gets imported and used elsewhere. 


The essential problem here is that you would like to carry out actions in response to a 
module being loaded. Perhaps you want to trigger some kind of callback function that 
would notify you when a module was loaded. 


This problem can be solved using the same import hook machinery discussed in Recipe 
10.11. Here is a possible solution: 


# postimport.py 

import importlib 

import sys 

from collections import defaultdict 


_post_import_hooks = defaultdict(list) 


class PostImportFinder: 
def __init__(self): 
self. skip = set() 


def find_module(self, fullname, path=None): 
if fullname in self. skip: 
return None 
self. _skip.add(fullname) 
return PostImportLoader(self) 


class PostImportLoader: 
def __init__(self, finder): 
self. finder = finder 


def load_module(self, fullname): 
importlib.import_module(fullname) 
module = sys.modules[ fullname] 
for func in _post_import_hooks[fullname]: 
func(module) 
self. finder. skip.remove(fullname) 
return module 


def when_imported(fullname) : 
def decorate(func): 
if fullname in sys.modules: 
func(sys.modules[ fullname] ) 
else: 
_post_import_hooks[fullname].append(func) 
return func 
return decorate 


sys.meta_path.insert(@, PostImportFinder()) 


To use this code, you use the when_imported() decorator. For example: 


>>> from postimport import when_imported 
>>> @when_imported('threading' ) 
. def warn_threads(mod): 
print('Threads? Are you crazy?') 


>>> 

>>> import threading 
Threads? Are you crazy? 
>>> 


As amore practical example, maybe you want to apply decorators to existing definitions, 
such as shown here: 


from functools import wraps 
from postimport import when_imported 


def logged(func): 
@wraps(func) 
def wrapper(*args, **kwargs): 
print('Calling', func. __name__, args, kwargs) 
return func(*args, **kwargs) 
return wrapper 


# Example 
@when_imported('math' ) 
def add_logging(mod): 
mod.cos = logged(mod.cos) 
mod.sin = logged(mod.sin) 


讨论 


This recipe relies on the import hooks that were discussed in Recipe 10.11, with a slight 
twist. 


First, the role of the @when_imported decorator is to register handler functions that get 
triggered on import. The decorator checks sys.modules to see if a module was already 
loaded. If so, the handler is invoked immediately. Otherwise, the handler is added to a list in 
the __post_import_hooks dictionary. The purpose of _post_import_hooks is simply to collect 
all handler objects that have been registered for each module. In principle, more than one 
handler could be registered for a given module. 


To trigger the pending actions in_post_import_hooks after module import, the Post 

ImportFinder class is installed as the first item in sys.meta_path. If you recall from Recipe 
10.11, sys.meta_path contains a list of finder objects that are consulted in order to locate 
modules. By installing PostImportFinder as the first item, it captures all module imports. 


In this recipe, however, the role of PostImportFinder is not to load modules, but to trigger 
actions upon the completion of an import. To do this, the actual import is delegated to the 
other finders on sys.meta_path. Rather than trying to do this directly, the function 
imp.import_module() is called recursively in the PostImportLoader class. To avoid getting 
stuck in an infinite loop, PostImportFinder keeps a set of all the modules that are currently 


in the process of being loaded. If a module name is part of this set, it is simply ignored by 
PostIlmportFinder. This is what causes the import request to pass to the other finders on 
sys.meta_path. 


After a module has been loaded with imp.import_module(), all handlers currently registered 
in_post_import_hooks are called with the newly loaded module as an argument. 


From this point forward, the handlers are free to do what they want with the module. A 
major feature of the approach shown in this recipe is that the patching of a module occurs in 
a seamless fashion, regardless of where or how a module of interest is actually loaded. You 
simply write a handler function that’s decorated with @when_imported() and it all just 
magically works from that point forward. 


One caution about this recipe is that it does not work for modules that have been explicitly 
reloaded using imp.reload(). That is, if you reload a previously loaded module, the post 
import handler function doesn’t get triggered again (all the more reason to not use reload() 
in production code). On the other hand, if you delete the module from sys.modules and redo 
the import, you'll see the handler trigger again. 


More information about post-import hooks can be found in PEP 369. As of this writing, the 
PEP has been withdrawn by the author due to it being out of date with the current 
implementation of the importlib module. However, it is easy enough to implement your 
own solution using this recipe. 


10.13 安装 私有 的 包 





问题 
You want to install a third-party package, but you don’t have permission to install packages 


into the system Python. Alternatively, perhaps you just want to install a package for your 
own use, not all users on the system. 


解决 方案 
Python has a per-user installation directory that’s typically located in a directory such as 


~/ local/lib/python3.3/site- packages. To force packages to install in this directory, give the - 
user option to the installation command. For example: 


python3 setup.py install --user 


or 


pip install --user packagename 


The user site-packages directory normally appears before the system site-packages 
directory on sys.path. Thus, packages you install using this technique take priority over the 
packages already installed on the system (although this is not always the case depending on 
the behavior of third-party package managers, such as distribute or pip). 


讨论 


Normally, packages get installed into the system-wide site-packages directory, which is 
found in a location such as /usr/local/lib/python3.3/site- packages. However, doing so 
typically requires administrator permissions and use of the sudo command. Even if you 
have permission to execute such a command, using sudo to install a new, possibly 
unproven, package might give you some pause. 


Installing packages into the per-user directory is often an effective workaround that allows 
you to create a custom installation. 


As an alternative, you can also create a virtual environment, which is discussed in the next 
recipe. 


10.14 创建 新 的 Python 环境 
问题 


Youwantto create a new Python environment in which you can install modules and 
packages. However, you want to do this without installing a new copy of Python or making 
changes that might affect the system Python installation. 


解决 方案 


You can make a new “virtual” environment using the pyvenv command. This command is 
installed in the same directory as the Python interpreter or possibly in the Scripts directory 
on Windows. Here is an example: 


bash % pyvenv Spam 
bash % 


The name supplied to pyvenv is the name of a directory that will be created. Upon creation, 
the Spam directory will look something like this: 


bash % cd Spam 

bash % 1s 

bin include lib pyvenv.cfg 
bash % 


In the bin directory, you'll find a Python interpreter that you can use. For example: 


bash % Spam/bin/python3 

Python 3.3.0 (default, Oct 6 2012, 15:45:22) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> from pprint import pprint 

>>> import sys 

>>> pprint(sys.path) 

ane 

"/usr/local/lib/python33.zip', 
"/usr/local/1lib/python3.3', 
"/usr/local/1lib/python3.3/plat-darwin', 
"/usr/local/lib/python3.3/lib-dynload’, 
"/Users/beazley/Spam/1lib/python3.3/site-packages' ] 
>>> 


A key feature of this interpreter is that its site- packages directory has been set to the newly 
created environment. Should you decide to install third-party packages, they will be 
installed here, not in the normal system site-packages directory. 


讨论 


The creation ofavirtual environment mostly pertains to the installation and management 
of third-party packages. As you can see in the example, the sys.path variable contains 
directories from the normal system Python, but the site-packages directory has been 
relocated to a new directory. 


With a new virtual environment, the next step is often to install a package manager, such as 
distribute or pip. When installing such tools and subsequent packages, you just need to 
make sure you use the interpreter that’s part of the virtual environment. This should install 
the packages into the newly created site-packages directory. 


Although a virtual environment might look like a copy of the Python installation, it really 
only consists of a few files and symbolic links. All of the standard library files and interpreter 
executables come from the original Python installation. Thus, creating such environments is 
easy, and takes almost no machine resources. 


By default, virtual environments are completely clean and contain no third-party addons. If 


you would like to include already installed packages as part of a virtual environment, create 
the environment using the -system-site-packages option. For example: 


bash % pyvenv --system-site-packages Spam 
bash % 


More information about pyvenv and virtual environments can be found in PEP 405. 
10.15 分 发 包 
问题 


Youve written auseful library, andyou want to be able to give it away to others. 


Ifyou're going to start giving code away, the first thing to do is to give it a unique name and 
clean up its directory structure. For example, a typical library package might look something 
like this: 


projectname/ 
README.txt 
Doc/ 
documentation. txt 
projectname/ 
__init__.py 
foo.py 
bar.py 
utils/ 
__init__.py 
spam. py 
grok. py 
examples/ 


helloworld. py 


To make the package something that you can distribute, first write a setup.py file that looks 
like this: 


# setup.py 


from distutils.core import setup 


setup(name='projectname', 
version='1.0', 
author='Your Name', 
author_email='you@youraddress.com', 
url='http://www.you.com/projectname', 
packages=['projectname', 'projectname.utils'], 


Next, make a file MANIFEST.in that lists various nonsource files that you want to include in 
your package: 


# MANIFEST.in 

include *.txt 
recursive-include examples * 
recursive-include Doc * 


Make sure the setup.py and MANIFEST.in files appear in the top-level directory of your 


package. Once you have done this, you should be able to make a source distribution by 
typing a command such as this: 


% bash python3 setup.py sdist 


This will create a file such as projectname- 1.0.zip or projectname- 1.0.tar.gz, depending on 
the platform. If it all works, this file is suitable for giving to others or uploading to the 
Python Package Index. 


讨论 


For pure Python code, writing a plain setup.py file is usually straightforward. One potential 
gotcha is that you have to manually list every subdirectory that makes up the packages 
source code. Acommon mistake is to only list the top-level directory of a package and to 
forget to include package subcomponents. This is why the specification for packages in 
setup.py includes the list packages=[‘projectname’, ‘project name.utils’]. 


As most Python programmers know, there are many third-party packaging options, 
including setuptools, distribute, and so forth. Some of these are replacements for the 
distutils library found in the standard library. Be aware that if you rely on these packages, 
users may not be able to install your software unless they also install the required package 
manager first. Because of this, you can almost never go wrong by keeping things as simple as 
possible. At a bare minimum, make sure your code can be installed using a standard Python 
3 installation. Additional features can be supported as an option if additional packages are 
available. 


Packaging and distribution of code involving C extensions can get considerably more 
complicated. Chapter 15 on C extensions has a few details on this. In particular, see Recipe 
15.2. 


第 十 一 半 : 网 络 与 Web 编 程 


本 章 是 关于 在 网 络 应 用 和 分 布 式 应 用 中 使 用 的 各 种 主题 。 主 题 划分 为 使 用 Python 编写 客 
户 端 程序 来 访问 已 有 的 服务 ， 以 及 使 用 Python 实现 网 络 服务 端 程序 。 也 给 出 了 一 些 常 见 
的 技术 ， 用 于 编写 涉及 协同 或 通信 的 的 代码 。 


























Contents: 
11.1 作为 客户 端 与 HTTP 服 务 交 互 


问题 


对 于 简单 的 事情 来 说 ， 通 常 使 用 urllib.request 模块 承 够 了 。 例 如 ， 发 送 一 个 简单 的 
HTTP GET 请 求 到 远程 的 服务 上 ， 可 以 这 样 做 : 





from urllib import request, parse 


# Base URL being accessed 
url = ‘http://httpbin.org/get' 


# Dictionary of query parameters (if any) 


parms = { 
'name1' : 'valuel', 
'name2' : ‘value2' 
} 


# Encode the query string 
querystring = parse.urlencode(parms) 


# Make a GET request and read the response 
u = request.urlopen(url+'?' + querystring) 
resp = u.read() 





如 果 你 需要 使 用 POST 方法 在 请 求 主体 中 发 送 查 询 参数 ， 可 以 将 参数 编码 后 作为 可 选 参数 
提供 给 urlopen() 函数 ， 就 像 这 样 : 


from urllib import request, parse 


# Base URL being accessed 
url = ‘http://httpbin.org/post' 


# Dictionary of query parameters (if any) 


parms = { 
'name1' : 'value1', 
'name2' : 'value2' 
} 


# Encode the query string 
querystring = parse.urlencode(parms) 


# Make a POST request and read the response 
u = request.urlopen(url, querystring.encode('ascii')) 
resp = u.read() 


如 果 你 需要 在 发 出 的 请 求 中 提供 一 些 自 定义 的 HTTP 头 ， 例 如 修改 user-agent 字段 ,可 以 
创建 一 个 包含 字段 值 的 字典 ， 并 创建 一 个 Request 实 例 然后 将 其 传 给 urlopen() > WF: 





from urllib import request, parse 


# Extra headers 

headers = { 
‘User-agent’ : 'none/ofyourbusiness', 
"Spam' : 'Eggs' 


req = request.Request(url, querystring.encode('ascii'), headers=headers) 


# Make a request and read the response 
u = request.urlopen(req) 
resp = u.read() 





如 果 需 要 交互 的 服务 比 上 面 的 例子 都 要 复杂 ， 也 许 应 该 去 看 看 requests E 
(https://pypi.python.org/pypi/requests) 。 人 例如， 下面 这 个 示例 采用 requests 库 重新 实 


现 了 上 面 的 操作 : 


import requests 


# Base URL being accessed 
url = ‘http://httpbin.org/post' 


# Dictionary of query parameters (if any) 


parms = { 
'name1' : 'value1', 
'name2' : 'value2' 
} 


# Extra headers 

headers = { 
'User-agent' : 'none/ofyourbusiness', 
'Spam' : 'Eggs' 





resp = requests.post(url, data=parms, headers=headers) 


# Decoded text returned by the request 
text = resp.text 


关于 requests 库 ， 一 个 值得 一 提 的 特性 就 是 它 能 以 多 种 方式 从 请 求 中 返回 响应 结果 的 内 
容 。 从 上 面 的 代码 来 看 ， resp.text 带 给 我 们 的 是 以 Unicode 解 码 的 响应 文本 。 但 是 ， 如 





果 去 访问 resp.content ， 就 会 得 到 原始 的 二 进 
， 那 么 就 会 得 到 JSON 格 式 的 响应 内 容 。 





HAE. AA, RIA resp.json 


下 面 这 个 示例 利用 | reauests | 库 发 起 一 个 HEAD 请 求 ， 并 从 响应 中 提取 出 一 些 HTTP 头 数据 


的 字段 : 


import requests 

resp = requests.head('http://www.python.org/index.html1' ) 

status = resp.status_code 

last_modified = resp.headers['last-modified' ] 

content_type = resp.headers['content-type' ] 

content_length = resp.headers['content-length' ] 

Here is a requests example that executes a login into the Python Package index using 
basic authentication: 


import requests 


resp = requests.get('http://pypi.python.org/pypi?:action=login', 
auth=('user','password')) 


Here is an example of using requests to pass HTTP cookies from one request to the 
next: 


import requests 

# First request 

resp1 = requests.get(url) 

# Second requests with cookies received on first requests 

resp2 = requests.get(url, cookies=resp1.cookies) 

Last, but not least, here is an example of using requests to upload content: 
import requests 

url = ‘http://httpbin.org/post' 


files = { 'file': (‘data.csv', open('data.csv', 'rb')) } 


r = requests.post(url, files=files) 





对 于 真 的 很 简单 HTTP 客 户 端 代 码 ， 用 内 置 的 urllib 模块 通常 就 足够 了 。 但 是 ， 如 果 你 
要 做 的 不 仅仅 只 是 简单 的 GET 或 POST 请 求 ， 那 就 真 的 不 能 再 依赖 它 的 功能 了 。 这 时 候 就 
是 第 三 方 模块 比如 requests 大 显 身手 的 时 候 了 。 





例如 ， 如 果 你 决定 坚持 使 用 标准 的 程序 库 而 不 考虑 像 requests 这 样 的 第 三 方 库 ， 那 么 也 
许 就 不 得 不 使 用 底层 的 http.client 模块 来 实现 自己 的 代码 。 比 方 说 ， 下 面 的 代码 展示 了 
如 何 执行 一 个 HEAD 请 求 : 





from http.client import HTTPConnection 
from urllib import parse 


c = HTTPConnection('www.python.org', 80) 
c.request('HEAD', '/index.html1' ) 
resp = c.getresponse() 


print('Status', resp.status) 
for name, value in resp.getheaders(): 
print(name, value) 

















同样 地 ， 如 果 必 须 编写 涉及 代理 、 认 证 、cookies 以 及 其 他 一 些 细节 方面 的 代码 ， 那 么 使 
用 urilib 就 显得 特别 别扭 和 哆 时 。 比 方 说 ， 下 面 这 个 示例 实现 在 Python 包 索 引 上 的 认 
证 : 








import urllib.request 


auth = urllib.request.HTTPBasicAuthHandler() 


auth.add_password('pypi','http://pypi.python.org','username','password') 
opener = urllib.request.build_opener (auth) 


r = urllib.request.Request('http://pypi.python.org/pypi?:action=login') 
u = opener.open(r) 
resp = u.read() 


# From here. You can access more pages using opener 


坦白 说 ， 所 有 的 这 些 操作 在 requests 库 中 都 变 得 简单 的 多 。 


在 开发 过 程 中 测试 HTTP 客 户 端 代码 常常 是 很 令 人 浊 开 的， 因为 所 有 棘手 的 细节 问题 都 需 
要 考虑 (例如 cookies、 认 证 、HTTP 头 、 编 码 方式 等 ) 。 要 完成 这 些 任务 ， 考 虑 使 用 
httpbin 服 务 (http://httpbin.org〉。 这 个 站 点 会 接收 发 出 的 请 求 ， 然 后 以 JSON 的 形式 将 
相应 信息 回 传 回来 。 下 面 是 一 个 交互 式 的 例子 : 











>>> import requests 
>>> r = requests.get('http://httpbin.org/get ?name=Dave&n=37', 
headers = { 'User-agent': 'goaway/1.0' }) 
>>> resp = r.json 
>>> resp[ ‘headers’ ] 
{'User-Agent': 'goaway/1.0', ‘Content-Length’: '', ‘Content-Type’: '' 
"Accept-Encoding': ‘gzip, deflate, compress', ‘Connection’: 
"keep-alive', ‘Host': ‘httpbin.org', ‘Accept': '*/*'} 
>>> resp['args'] 


3 


{'name': 'Dave', 'n': '37'} 


>>> 


在 要 同一 个 真正 的 站 点 进行 交互 前 ， 先 在 httpbin.org 这 样 的 网 站 上 做 实验 常常 是 可 取 的 
办 法 。 尤 其 是 当 我 们 面 对 3 次 登录 失败 就 会 关闭 账户 这 样 的 风险 时 尤为 有 用 (不 要 党 试 自 
己 编写 HTTP 认 证 客户 端 来 登录 你 的 银行 账户 ) 。 


尽管 本 节 没 有 涉及 ， request 库 还 对 许多 高 级 的 HTTP 客 户 端 协议 提供 了 支持 ， 比 如 
OAuth. requests 模块 的 文档 (http://docs.python-requests.org) 质 量 很 高 (坦白 说 比 在 
这 短 短 的 一 节 的 篇 幅 中 所 提供 的 任何 信息 都 好 ) ， 可 以 参考 文档 以 获得 更 多 地 信息 。 











ll 








11.2 创建 TCP 服 务 器 
问题 


你 想 实 现 一 个 服务 器 ， 通 过 TCP 协 议和 客户 端 通信 。 


解决 方案 


创建 一 个 TCP 服 务 器 的 一 个 简单 方法 是 使 用 socketserver 库 。 例 如 ， 下 面 是 一 个 简单 的 
应 答 服 务 器 : 


from socketserver import BaseRequestHandler, TCPServer 


class EchoHandler(BaseRequestHandler): 
def handle(self): 
print('Got connection from', self.client_address) 
while True: 


msg = self.request.recv(8192) 
if not msg: 

break 
self.request.send(msg) 


if __name__ == '__main_' 
serv = TCPServer(('', 20000), EchoHandler) 
serv.serve_forever() 














在 这 段 代码 中 ， 你 定义 了 一 个 特殊 的 处 理 类 ， 实 现 了 一 个 handle() 方法 ， 用 来 为 客户 端 
连接 服务 。 request 属性 是 客户 端 socket， client_address 有 客户 端 地 址 。 为 了 测试 这 
个 服务 器 ， 运 行 它 并 打开 另外 一 个 Python 进程 连接 这 个 服务 器 : 








>>> from socket import socket, AF_INET, SOCK_STREAM 
>>> s = socket(AF_INET, SOCK _STREAM) 

>>> s.connect(('localhost', 2000@)) 

>>> s.send(b'Hello') 

5 

>>> s.recv(8192) 

b'Hello' 

>>> 




















很 多 时 候 ， 可 以 很 容易 的 定义 一 个 不 同 的 处 理 器 。 下 面 是 一 个 使 用 streamrequestHandler 
基 类 将 一 个 类 文件 接口 放置 在 底层 socket 上 的 例子 : 


from socketserver import StreamRequestHandler, TCPServer 


class EchoHandler(StreamRequestHandler): 
def handle(self): 
print('Got connection from’, self.client_address) 
# self.rfile is a file-Like object for reading 
for line in self.rfile: 
# self.wfile is a file-Like object for writing 
self.wfile.write(line) 


if name == '__main_' 
serv = TCPServer(('', 20000), EchoHandler) 
serv.serve_forever() 


socketserver 可 以 让 我 们 很 容易 的 创建 简单 的 TCP 服 务 器 。 但 是 ， 你 需要 注意 的 是 ， 默 
认 情 况 下 这 种 服务 器 是 单线 程 的 ， 一 次 只 能 为 一 个 客户 端 连接 服务 。 如 果 你 想 处 理 多 个 
客户 端 ， 可 以 初始 化 一 个 ForkingTCPServer 或 者 是 ThreadingTCPServer WR. 例如 : 




















T 





from socketserver import ThreadingTCPServer 


if __name__ == '__main_' 
serv = ThreadingTCPServer(('', 20000), EchoHandler) 
serv.serve_forever() 





使 用 fork 或 线程 服务 器 有 个 潜在 问题 就 是 它们 会 为 每 个 客户 端 连接 创建 一 个 新 的 进程 或 线 
程 。 由 于 客户 端 连接 数 是 没有 限制 的 ， 因 此 一 个 恶意 的 黑客 可 以 同时 发 送 大 量 的 连接 让 
你 的 服务 器 奔 溃 。 




















如 果 你 担心 这 个 问题 ， 你 可 以 创建 一 个 预先 分 配 大 小 的 工作 线程 池 或 进程 池 。 你 先 创建 
一 个 普通 的 非 线程 服务 器 ， 然 后 在 一 个 线程 池 中 使 用 serve_forever() 方法 来 启动 它们 。 

















if __name__ == ' main _ 

from threading import Thread 

NWORKERS = 16 

serv = TCPServer(('', 20000), EchoHandler) 

for n in range(NWORKERS): 
t = Thread(target=serv.serve_forever) 
t.daemon = True 
t.start() 

serv.serve_forever() 





一 般 来 讲 ， 一 个 TcPserver 在 实例 化 的 时 候 会 绑 定 并 激活 相应 的 socket 。 不 过 ， 有 时 候 
你 想 通 过 设置 某 些 选项 去 调整 底下 的 socket’ , 可 以 设置 参数 bind_and_activate=False 。 
如 下 : 


if __name__ == ' main _ 
serv = TCPServer(('', 20000), EchoHandler, bind_and_activate=False) 
# Set up various socket options 
serv.socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, True) 
# Bind and activate 
serv.server_bind() 
serv.server_activate() 
serv.serve_forever() 

















上 面 的 socket 选项 是 一 个 非常 普遍 的 配置 项 ， 它 允许 服 务 器 重新 绑 定 一 个 之 前 使 用 过 的 
端口 号 。 由 于 要 被 经 常 使 用 到 ， 它 被 放置 到 类 变量 中 ， 可 以 直接 在 tcpserver 上 面 设 
在 实例 化 服务 器 的 时 候 去 设置 它 的 值 ， 如 下 所 示 : 

















if __name__ == ' main _ 
TCPServer.allow_reuse_address = True 
serv = TCPServer(('', 20000), EchoHandler) 
serv.serve_forever() 




















在 上 面 示例 中 ， 我 们 演示 了 两 种 不 同 的 处 理 器 基 类 ( BaseRequestHandler 和 
StreamRequestHandler Ding StreamRequestHandler 更 加 灵活 点 ， 能 通 过 设置 其 他 的 类 变量 


来 文 持 一 些 新 的 特性 。 比 如 : 








import socket 


class EchoHandler(StreamRequestHandler): 


# Optional settings (defaults shown) 


timeout = 5 # Timeout on all socket operations 
rbufsize = -1 # Read buffer size 
wbufsize = 6 # Write buffer size 


disable _nagle_algorithm = False # Sets TCP_NODELAY socket option 


def handle(self): 


print('Got connection from', self.client_address) 


try: 
for line in self.rfile: 


# self.wfile is a file-Like object for writing 


self.wfile.write(line) 
except socket.timeout: 
print('Timed out!') 











最 后 ， 还 需要 注意 的 是 巨大 部 分 Python 的 高 层 网 络 模块 《〈 比 如 HTTP、XML-RPC 等 ) 都 是 
建立 在 socketserver 功能 之 上 。 也 就 是 说 ， 直 接 使 用 socket 库 来 实现 服务 器 也 并 不 是 
很 难 。 下 面 是 一 个 使 用 socket 直接 编程 实现 的 一 个 服务 器 简单 例子 : 








from socket import socket, AF_INET, SOCK_STREAM 


def 


def 


if 


_name == ' main _ 


echo_handler(address, client sock): 


print('Got connection from {}'.format(address)) 


while True: 
msg = client sock.recv(8192) 
if not msg: 
break 
client_sock.sendall(msg) 
client_sock.close() 


echo_server(address, backlog=5): 
sock = socket(AF_INET, SOCK_STREAM) 
sock.bind(address) 
sock. listen(backlog) 
while True: 
client_sock, client_addr = sock.accept() 
echo_handler(client_addr, client_sock) 


echo_server(('', 20000)) 


11.3 创建 UDP 服务 器 


问题 


你 想 实 现 一 个 基于 UDP 协议 的 服务 器 来 与 客户 端 通信 。 











解决 方案 





跟 TCP 一 样 ，UDP 服 务 器 也 可 以 通过 使 用 socketserver 库 很 容易 的 被 创建 。 例 如 ， 下 面 
一 个 简单 的 时 间 服 务 器 : 


from socketserver import BaseRequestHandler, UDPServer 
import time 


class TimeHandler(BaseRequestHandler): 
def handle(self): 
print('Got connection from', self.client_address) 
# Get message and client socket 
msg, sock = self.request 
resp = time.ctime() 


sock.sendto(resp.encode(‘ascii'), self.client_address) 


if __name__ == '__main__ 
serv = UDPServer(('', 20000), TimeHandler) 
serv.serve_forever() 


跟 之 前 一 样 ， 你 先 定义 一 个 实现 handle() 特殊 方法 的 类 ， 为 客户 端 连接 服务 。 这 个 类 的 
request 属性 是 一 个 包含 了 数据 报 和 底层 socket 对 象 的 元 组 。 client_address 包含 了 客户 
端 地 址 。 


我 们 来 测试 下 这 个 服务 器 ， 首 先 运行 它 ， 然 后 打开 另外 一 个 Python 进程 向 服务 器 发 送 消 


sy s 





>>> from socket import socket, AF_INET, SOCK_DGRAM 
>>> s = socket(AF_INET, SOCK _DGRAM) 

>>> s.sendto(b'', ('localhost', 20000) ) 

0 


>>> s.recvfrom(8192) 


(b'Wed Aug 15 20:35:08 2012', ('127.0.0.1', 20000)) 
>>> 


讨论 


一 个 典型 的 UPD 服 务 器 接收 到 达 的 数据 报 (消息 ) 和 客户 端 地 址 。 如 果 服 务 器 需要 做 应 答 ， 
它 要 给 客户 端 回 发 一 个 数据 报 。 对 于 数据 报 的 传送 ， 你 应 该 使 用 socket 的 sendto() 和 
recvfrom() 方法 。 尽 管 传 统 的 send() 和 recv() 也 可 以 达到 同样 的 效果 ， 但 是 前 面 的 








两 个 方法 对 于 UDP 连接 而 言 更 普遍 。 











由 于 没有 底层 的 连接 ，UPD 服 务 器 相对 于 TCP 服 务 器 来 讲 实现 起 来 更 加 简单 。 不 过 ， 
UDP 天 生 是 不 可 靠 的 〈 因 为 通信 没有 建立 连接 ， 消 息 可 能 丢失 ) 。 因此 需要 由 你 自己 来 
决定 该 怎样 处 理 丢 失 消息 的 情况 。 这 个 已 经 不 在 本 书 讨论 范围 内 了 ， 不 过 通常 来 说 ， 如 
果 可 靠 性 对 于 你 程序 很 重要 ， 你 需要 借助 于 序列 号 、 重 试 、 超 时 以 及 一 些 其 他 方法 来 保 
证 。UDP 通 常 被 用 在 那些 对 于 可 靠 传输 要 求 不 是 很 高 的 场合 。 例 如 ， 在 实时 应 用 如 多 媒 
体 流 以 及 游戏 领域 ， 无 需 返 回 恢复 丢失 的 数据 包 《〈 程 序 只 需 简 单 的 忽略 它 并 继续 同 前 运 
TE 
































UDPserver 类 是 单线 程 的 ， 也 就 是 说 一 次 只 能 为 一 个 客户 端 连接 服务 。 实际 使 用 中 ， 这 个 
无 论 是 对 于 UDP 还 是 TCP 都 不 是 什么 大 问题 。 如 果 你 想 要 并 发 操作 ， 可 以 实例 化 一 个 


ForkingUDPServer 或 ThreadingUDPServer WR: 


from socketserver import ThreadingUDPServer 


if _name__ == ' main _" 
serv = ThreadingUDPServer(('',20000), TimeHandler) 
serv.serve_forever() 


直接 使 用 socket 来 是 想 一 个 UDP 服务 器 也 不 难 ， 下 面 是 一 个 例子 : 


from socket import socket, AF_INET, SOCK_DGRAM 
import time 


def time_server(address): 

sock = socket(AF_INET, SOCK_DGRAM) 

sock. bind(address) 

while True: 
msg, addr = sock.recvfrom(8192) 
print('Got message from', addr) 
resp = time.ctime() 
sock.sendto(resp.encode('ascii'), addr) 


if __name__ == '__main_' 
time_server(('', 20000) ) 


11.4 通过 CIDR 地 址 生成 对 应 的 IP 地 址 集 


问题 





你 有 一 个 CIDR 网 络 地 址 比如 “123.45.67.89/27”"， 你 想 将 其 转换 成 它 所 代表 的 所 有 IP CLE 
in, “123.45.67.64”,“123.45.67.65”, ...,“123.45.67.95”)) 


解决 方案 


可 以 使 用 ipaddress 模块 很 容易 的 实现 这 样 的 计算 。 例 如 : 


>>> import ipaddress 
>>> net = ipaddress.ip_network('123.45.67.64/27') 
>>> net 
IPv4Network('123.45.67.64/27') 
>>> for a in net: 
print(a) 


123.45.67.64 
123.45.67.65 
123.45.67.66 
123.45.67.67 
123.45.67.68 


123.45.67.95 
>>> 


>>> net6 = ipaddress.ip_network('12:3456:78:90ab:cd:ef@1:23:30/125') 
>>> net6 
IPv6éNetwork('12:3456:78:90ab: cd: ef0@1:23:30/125' ) 
>>> for a in net6 : 
print(a) 


12:3456:78:90ab:cd:ef01:23:30 
12:3456:78:90ab:cd:ef01:23:31 
12:3456:78:90ab:cd:ef01:23:32 
12:3456:78:90ab:cd:ef@1: 23:33 
12:3456:78:90ab:cd:ef01:23:34 
12:3456:78:90ab:cd:ef01:23:35 
12:3456:78:90ab:cd:ef01:23:36 
12:3456:78:90ab:cd:ef0@1:23:37 
>>> 


Network 也 允许 像 数 组 一 样 的 索引 取 值 ， 例 如 : 





>>> net.num_addresses 
32 
>>> net[e] 


IPv4Address('123.45.67.64') 
>>> net[1] 
IPv4Address('123.45.67.65') 
>>> net[-1] 
IPv4Address('123.45.67.95') 
>>> net[-2] 
IPv4Address('123.45.67.94') 
>>> 


另外 ， 你 还 可 以 执行 网 络 成 员 检 查 之 类 的 操作 : 


>>> a = ipaddress.ip_address('123.45.67.69') 
>>> a in net 

True 

>>> b = ipaddress.ip_address('123.45.67.123') 
>>> b in net 

False 

>>> 


一 个 IP 地 址 和 网 络 地 址 能 通过 一 个 IP 接 口 来 指定 ， 例 如 ; 


>>> inet = ipaddress.ip_interface('123.45.67.73/27') 
>>> inet.network 

IPv4Network('123.45.67.64/27' ) 

>>> inet.ip 

IPv4Address('123.45.67.73') 

>>> 


讨论 


ipaddress 模块 有 很 多 类 可 以 表示 IP 地 址 、 网 络 和 接口 。 当 你 需要 操作 网 络 地 址 (比如 解 
析 、 打 印 、 验 证 等 ) 的 时 候 会 很 有 用 。 


要 注意 的 是 ， ipaddress 模块 跟 其 他 一 些 和 网 络 相关 的 模块 比如 socket 库 交集 很 少 。 所 
以 ， 你 不 能 使 用 IPv4Address 的 实例 来 代替 一 个 地 址 字符 串 ， 你 首先 得 显 式 的 使 用 str() 
转换 它 。 例 如 : 


>>> a = ipaddress.ip_address(‘'127.0.0.1') 
>>> from socket import socket, AF_INET, SOCK_STREAM 
>>> s = socket(AF_INET, SOCK_STREAM) 
>>> s.connect((a, 8080)) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't convert 'IPv4Address' object to str implicitly 
>>> s.connect((str(a), 8080)) 
>>> 


更 多 相关 内 容 ， 请 参考 An Introduction to the ipaddress Module 


11.5 创建 一 个 简单 的 REST 接 口 


问题 








你 想 使 用 一 个 简单 的 REST 接 口 通 过 网 络 远程 控制 或 访问 你 的 应 用 程序 ， 但 是 你 又 不 想 自 
eo 整 的 web 框 架 。 











构建 一 个 REST 风 格 的 接口 最 简单 的 方法 是 创建 一 个 基于 WSGI 标 准 (PEP 3333) 的 很 小 的 
库 ， 下 面 是 一 个 例子 : 


# resty.py 


import cgi 


def notfound_404(environ, start_response): 
start_response('404 Not Found', [ ('‘'Content-type', 'text/plain') ]) 
return [b'Not Found’ ] 


class PathDispatcher: 
def __init__(self): 
self.pathmap = { } 


def __call__(self, environ, start_response): 
path = environ[ "PATH_INFO ] 
params = cgi.FieldStorage(environ[ 'wsgi.input'], 
environ=environ) 
method = environ[ ‘REQUEST _METHOD' ].lower() 
environ['params'] = { key: params.getvalue(key) for key in params } 
handler = self.pathmap.get((method,path), notfound_404) 
return handler(environ, start_response) 


def register(self, method, path, function): 
self.pathmap[method.lower(), path] = function 
return function 




















j 


为 了 使 用 这 个 调度 器 ， 你 只 需要 编写 不 同 的 处 理 器 ， 就 像 下 面 这 样 : 





import time 


_hello_resp = ‘''\ 
<html> 
<head> 
<title>Hello {name}</title> 
</head> 
<body> 
<h1>Hello {name}! </h1> 
</body> 
/EL 


def hello_world(environ, start_response): 
start_response('200 OK', [ ('Content-type', 'text/html')]) 
params = environ['params' ] 
resp = _hello_resp.format(name=params.get('name' )) 
yield resp.encode('utf-8') 


_localtime_resp = ‘''\ 

<?xml version="1.0"?> 

<time> 
<year>{t.tm_year}</year> 
<month>{t.tm_mon}</month> 
<day>{t.tm_mday}</day> 
<hour>{t.tm_hour}</hour> 
<minute>{t.tm_min}</minute> 
<second>{t.tm_sec}</second> 


</time> 


def localtime(environ, start_response): 
start_response('200 OK', [ ('Content-type', ‘application/xml') ]) 
resp = _localtime_resp.format(t=time.localtime()) 
yield resp.encode('utf-8' ) 


if name _ == '__main_': 


from resty import PathDispatcher 
from wsgiref.simple_ server import make_server 


# Create the dispatcher and register functions 
dispatcher = PathDispatcher() 
dispatcher.register('GET', '/hello', hello_world) 
dispatcher.register('GET', '/localtime', localtime) 


# Launch a basic server 

httpd = make_server('', 8080, dispatcher) 
print('Serving on port 8080...') 
httpd.serve_forever() 


要 测试 下 这 个 服务 器 ， 你 可 以 使 用 一 个 浏览 器 或 urllib 和 它 交 互 。 例 如 : 


>>> u = urlopen('http://localhost:8080/hello?name=Guido' ) 
>>> print(u.read().decode('utf-8')) 
<html> 
<head> 
<title>Hello Guido</title> 
</head> 
<body> 
<h1>Hello Guido!</h1> 
</body> 
</html> 


>>> u = urlopen('http://localhost:8080/localtime' ) 
>>> print(u.read().decode('utf-8')) 
<?xml version="1.0"?> 
<time> 
<year>2012</year> 
<month>11</month> 
<day>24</day> 
<hour>14</hour> 
<minute>49</minute> 
<second>17</second> 
</time> 
>>> 


讨论 


在 编写 REST 接 口 时 ， 通 常 都 是 服务 于 普通 的 HTTP 请 求 。 但 是 跟 那 些 功能 完整 的 网 站 相 
比 ， 你 通常 只 需要 处 理 数据 。 这 些 数据 以 各 种 标准 格式 编码 ， 比 如 XML、JSON 或 CSV。 
尽管 程序 看 上 去 很 简单 ， 但 是 以 这 种 方式 提供 的 API 对 于 很 多 应 用 程序 来 讲 是 非常 有 用 
的 。 





























例如 ， 长 期 运行 的 程序 可 能 会 使 用 一 个 RESTAPI 来 实现 监控 或 诊断 。 大 数据 应 用 程序 可 
以 使 用 REST 来 构建 一 个 数据 查询 或 提取 系统 。 REST 还 能 用 来 控制 硬件 设备 比如 机 器 人 、 
传感器 、 工 厂 或 灯泡 。 更 重要 的 是 ，RESTAPI 已 经 被 大 量 客户 端 编程 环境 所 支持 ， 比 如 
Javascript, Android,iOS 等 。 因 此， 利用 这 种 接口 可 以 让 你 开发 出 更 加 复杂 的 应 用 程序 。 
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KIAMA PA AREST#E OI, MR ERAITTE ARI i Python HY WSGIERE BW FY 
WSGI 被 标准 库 支 持 ， 同 时 也 被 绝 大 部 分 第 三 方 web 框 架 支 持 。 因 此 ， 如 果 你 的 代码 遵循 
这 个 标准 ， 在 后 面 的 使 用 过 程 中 就 会 更 加 的 灵活 ! 




















在 WSGI 中 ， 你 可 以 像 下 面 这 样 约定 的 方式 以 一 个 可 调用 对 象形 式 来 实现 你 的 程序 。 





import cgi 


def wsgi_app(environ, start_response): 
pass 





environ 属性 是 一 个 字典 ， 包 含 了 从 web 服 务 器 如 Apache[ 参 考 Internet RFC 3875] 提 供 的 
CGI 接口 中 获取 的 值 。 要 将 这 些 不 同 的 值 提取 出 来 ， 你 可 以 像 这 么 这 样 写 : 








def wsgi_app(environ, start_response): 
method = environ[ 'REQUEST_METHOD' ] 
path = environ['PATH_INFO' ] 
# Parse the query parameters 


params = cgi.FieldStorage(environ[ 'wsgi.input'], environ=environ) 


我 们 展示 了 一 些 常见 的 值 。 environ[ ‘REQUEST_METHOD’ ] 代表 请 求 类 型 如 GET、POST、 
HEAD 等 。 environ['PATH_INFO'] 表示 被 请 求 资 源 的 路 径 。 调用 cgi.Fieldstorage() 可 以 
从 请 求 中 提取 查询 参数 并 将 它们 放 入 一 个 类 字典 对 象 中 以 便 后 面 使 用 。 





start_response 参数 是 一 个 为 了 初始 化 一 个 请 求 对 象 而 必须 被 调用 的 函数 。 第 一 个 参数 
是 返回 的 HTTP 状 态 值 ， 第 二 个 参数 是 一 个 (名 , 值 ) 元 组 列表 ， 用 来 构建 返回 的 HTTP 头 。 例 
如 : 











def wsgi_app(environ, start_response): 
pass 
start_response('200 OK', [('Content-type', ‘'text/plain')]) 





为 了 返回 数据 ， 一 个 WSGI 程 序 必须 返回 一 个 字 节 字符 串 序 列 。 可 以 像 下 面 这样 使 用 一 个 
列表 来 完成 : 





def wsgi_app(environ, start_response): 


pass 
start_response('200 OK', [('Content-type', ‘'text/plain')]) 
resp = [] 


resp.append(b'Hello World\n' ) 
resp.append(b' Goodbye! \n') 
return resp 


或 者 ， 你 还 可 以 使 用 yield : 


def wsgi_app(environ, start_response): 
pass 
start_response('20@ OK', [('Content-type', ‘'text/plain')]) 
yield b'Hello World\n' 
yield b'Goodbye!\n' 


这 里 要 强调 的 一 点 是 最 后 返回 的 必须 是 字 节 字符 串 。 如 果 返 回 结果 包含 文本 字符 串 ， 必 须 
先 将 其 编码 成 字 节 。 当然 ， 并 没有 要 求 你 返回 的 一 点 是 文本 ， 你 可 以 很 轻松 的 编写 一 个 
生成 图 片 的 程序 。 














SE 
合适 的 _ call O 方法 。 例 如 : 


class WSGIApplication: 
def __init__(self): 


def __call__(self, environ, start_response) 

















我 们 已 经 在 上 面 使 用 这 种 技术 创建 Pathpispatcher 类 。 这 个 分 发 器 仅仅 只 是 管理 一 个 字 
典 ， 将 (方法 路径 ) 对 映射 到 处 理 器 函数 上 面 。 当 一 个 请 求 到 来 时 ， 它 的 方法 和 路 径 被 提取 
出 来 ， 然 后 被 分 发 到 对 应 的 处 理 器 上 面 去 。 另外， 任何 查询 变量 会 被 解析 后 放 到 一 个 字 
典 中 ， 以 environ['params'] 形式 存储 。 后 面 这 个 步骤 太 常见 ， 所 以 建议 你 在 分 发 器 里 面 
完成 ， 这 样 可 以 省 掉 很 多 重复 代码 。 使 用 分 发 器 的 时 候 ， 你 只 需 简单 的 创建 一 个 实例 ， 
然后 通过 它 注册 各 种 WSGI 形 式 的 函数 。 编 写 这 些 函 数 应 该 超级 简单 了 ， 只 要 你 遵循 
start_response() 函数 的 编写 规则 ， 并 且 最 后 返回 字 节 字符 串 即 可 。 












































当 编 写 这 种 函数 的 时 候 还 需 注意 的 一 点 就 是 对 于 字符 串 模板 的 使 用 。 没 人 愿意 写 那 种 到 
处 混合 着 print() 函数 、XML 和 大 量 格式 化 操作 的 代码 。 我 们 上 面 使 用 了 三 引号 包含 的 
预先 定义 好 的 字符 串 模板 。 这 种 方式 的 可 以 让 我 们 很 容易 的 在 以 后 修改 输出 格式 (只 需要 
修改 模板 本 身 ， 而 不 用 动 任何 使 用 它 的 地 方 )。 








最 后 ， 使 用 WSGI 还 有 一 个 很 重要 的 部 分 就 是 没有 什么 地 方 是 针对 特定 web 服 务 器 的 。 A 
为 标准 对 于 服务 器 和 框架 是 中 立 的 ， 你 可 以 将 你 的 程序 放 入 任何 类 型 服务 器 中 。 我 们 使 
用 下 面 的 代码 测试 测试 本 节 代 码 : 





if name == '__main_' 


from wsgiref.simple_ server import make_server 


# Create the dispatcher and register functions 
dispatcher = PathDispatcher() 
pass 


# Launch a basic server 

httpd = make_server('', 8080, dispatcher) 
print('Serving on port 808@...') 
httpd.serve_forever() 


上 面 代 码 创建 了 一 个 简单 的 服务 器 ， 然 后 你 就 可 以 来 测试 下 你 的 实现 是 否 能 正常 工作 。 
最 后 ， 当 你 准备 进一步 扩展 你 的 程序 的 时 候 ， 你 可 以 修改 这 个 代码 ， 让 它 可 以 为 特定 服务 
器 工作 。 


WSGI 本 身 是 一 个 很 小 的 标准 。 因 此 它 并 没有 提供 一 些 高 级 的 特性 比如 认证 、cookies、 重 
定 问 等 。 这 些 你 自己 实现 起 来 也 不 难 。 不 过 如 果 你 想 要 更 多 的 支持 ， 可 以 考虑 第 三 方 
库 ， 比 如 webob BW paste o 





11.6 通过 XML-RPC 实 现 简 单 的 远程 调用 
问题 


Youwant an easy Way to execute functions or methods in Python programs running on 
remote machines. 


解决 方案 


Perhaps the easiest way to implement a simple remote procedure call mechanism is to use 
XML-RPC. Here is an example of a simple server that implements a simple key- value store: 


from xmirpc.server import SimplexXMLRPCServer 


class KeyValueServer: 
_rpc_methods_ = [‘get’, ‘set’, ‘delete’, ‘exists’, ‘keys’] def __ init__(self, address): 


self._data = {} self._serv = SimpleXMLRPCServer(address, allow_none=True) for name 
in self. rpc_ methods : 


self. serv.register function(getattr(self, name)) 


def get(self, name): 
return self. data[name] 


def set(self, name, value): 
self. data[name] = value 


def delete(self, name): 
del self. data[name] 


def exists(self, name): 
return name in self. data 


def keys(self): 
return list(self._data) 


def serve_forever(self): 
self..serv.serve_forever() 


》 


# Example if__name_==‘_main_’: 
kvserv = KeyValueServer((’”, 15000)) kvserv.serve_forever() 


Here is how you would access the server remotely from a client: 


>>> from xmlrpc.client import ServerProxy 
>>> s = ServerProxy('http://localhost:15000', allow_none=True) 
>>> s.set('foo', 'bar') 

>>> s.set('spam', [1, 2, 3]) 

>>> s.keys() 

['spam', 'foo'] 

>>> s.get('foo') 

‘bar’ 

>>> s.get('spam') 

[1, 2, 3] 

>>> s.delete('spam' ) 

>>> s.exists('spam') 

False 

>>> 


讨论 


XML-RPC can be an extremely easy way to set up a simple remote procedure call service. All 
you need to do is create a server instance, register functions with it using the regis 
ter_function() method, and then launch it using the serve_forever() method. This recipe 
packages it up into a class to put all of the code together, but there is no such requirement. 
For example, you could create a server by trying something like this: 


from xmlrpc.server import SimpleXMLRPCServer def add(x,y): 


return x+y 


serv = SimpleXMLRPCServer((", 15000)) serv.register_function(add) serv.serve_forever() 


Functions exposed via XML-RPC only work with certain kinds of data such as strings, 
numbers, lists, and dictionaries. For everything else, some study is required. For in - stance, 
if you pass an instance through XML-RPC, only its instance dictionary is handled: 


>>> class Point: 
def __init__(self, x, y): 
self.x = x 
self.y =y 


>>> p = Point(2, 3) 
>>> s.set('foo', p) 
>>> s.get('foo') 
fe YY Bt 
>>> 


Similarly, handling of binary data is a bit different than you expect: 


>>> s.set('foo', b'Hello World') 
>>> s.get('foo') 
<xmlrpc.client.Binary object at 0x10131d410> 


>>> _.data 
b'Hello World' 
>>> 


As a general rule, you probably shouldn’t expose an XML-RPC service to the rest of the 
world as a public API. It often works best on internal networks where you might want to 
write simple distributed programs involving a few different machines. A downside to XML- 
RPC is its performance. The SimpleXMLRPCServer implementa - tion is only single 
threaded, and wouldn't be appropriate for scaling a large application, although it can be 
made to run multithreaded, as shown in Recipe 11.2. Also, since XML-RPC serializes all data 
as XML, it’s inherently slower than other approaches. However, one benefit of this encoding 
is that it’s understood by a variety of other pro - gramming languages. By using it, clients 
written in languages other than Python will be able to access your service. Despite its 
limitations, XML-RPC is worth knowing about if you ever have the need to make a quick 
and dirty remote procedure call system. Oftentimes, the simple solution is good enough. 


11.7 在 不 同 的 Python 解释 器 之 间 交 互 


问题 


You are running multiple instances of the Python interpreter, possibly on different ma - 
chines, and you would like to exchange data between interpreters using messages. 


It is easy to communicate between interpreters if you use the multiprocessing.con nection 
module. Here is a simple example of writing an echo server: 


from multiprocessing.connection import Listener import traceback 


def echo_client(conn): 
try: 
while True: 
msg = conn.recv() conn.send(msg) 


except EOFError: 
print(‘Connection closed’) 


def echo_server(address, authkey): 
serv = Listener(address, authkey=authkey) while True: 


try: 
client = serv.accept() 


echo _client(client) 


except Exception: 
traceback.print_exc() 


echo_server((”, 25000), authkey=b’peekaboo’) 


Here is asimple example of a client connecting to the server and sending various messages: 


>>> from multiprocessing.connection import Client 
>>> c = Client(('localhost', 25000), authkey=b'peekaboo' ) 
>>> c.send('hello') 

>>> c.recv() 

"hello' 

>>> c.send(42) 

>>> c.recv() 

42 

>>> c.send([1, 2, 3, 4, 5]) 

>>> c.recv() 

[1, 2, 3, 4, 5] 

>>> 


Unlike a low-level socket, messages are kept intact (each object sent using send() is received 
in its entirety with recv()). In addition, objects are serialized using pickle. So, any object 
compatible with pickle can be sent or received over the connection. 


There are many packages and libraries related to implementing various forms of mes - sage 
passing, such as ZeroMQ, Celery, and so forth. As an alternative, you might also be inclined 
to implement a message layer on top of low-level sockets. However, some - times you just 
want a simple solution. The multiprocessing.connection library is just that—using a few 
simple primitives, you can easily connect interpreters together and have them exchange 
messages. If you know that the interpreters are going to be running on the same machine, 
you can use alternative forms of networking, such as UNIX domain sockets or Windows 
named pipes. To create a connection using a UNIX domain socket, simply change the 
address to a filename such as this: 


s = Listener(‘/tmp/myconn’, authkey=b’peekaboo’) 

To create a connection using a Windows named pipe, use a filename such as this: 

s = Listener(r’\.pipemyconn’, authkey=b’peekaboo’) 

As a general rule, you would not be using multiprocessing to implement public-facing 
services. The authkey parameter to Client() and Listener() is there to help authen - ticate 


the end points of the connection. Connection attempts with a bad key raise an exception. In 
addition, the module is probably best suited for long-running connections 


(not a large number of short connections). For example, two interpreters might establish a 
connection at startup and keep the connection active for the entire duration of a problem. 
Don't use multiprocessing if you need more low-level control over aspects of the con - 
nection. For example, if you needed to support timeouts, nonblocking I/O, or anything 
similar, you're probably better off using a different library or implementing such features on 
top of sockets instead. 


11.8 实现 远程 方法 调用 
问题 


You want to implement simple remote procedure call (RPC) on top of a message passing 
layer, such as sockets, multiprocessing connections, or ZeroMQ. 


RPC is easy to implement by encoding function requests, arguments, and return values 
using pickle, and passing the pickled byte strings between interpreters. Here is an example 
of asimple RPC handler that could be incorporated into a server: 


# rpcserver.py 


import pickle class RPCHandler: 


def _init_(self): 
self. functions = { } 


def register_function(self, func): 
self. functions[func._name_] = func 


def handle_connection(self, connection): 
try: 
while True: 


# Receive a message func_name, args, kwargs = pickle.loads(connection.recv()) 


# Run the RPC and send a response try: 


r = self. functions[func_name](*args,**kwargs) 
connection.send(pickle.dumps(r)) 


except Exception as e: 
connection.send(pickle.dumps(e)) 


except EOFError: 
pass 


To use this handler, you need to add it into a messaging server. There are many possible 
choices, but the multiprocessing library provides a simple option. Here is an example RPC 
server: 


from multiprocessing.connection import Listener from threading import Thread 


def rpc_server(handler, address, authkey): 
sock = Listener(address, authkey=authkey) while True: 


client = sock.accept() t = Thread(target=handler.handle_connection, args=(client,)) 
t.daemon = True t.start() 


# Some remote functions def add(x, y): 


return x+y 


def sub(x, y): 
return X- y 


# Register with a handler handler = RPCHandler() handler.register_function(add) 
handler.register_function(sub) 


# Run the server rpc_server(handler, (‘localhost’, 17000), authkey=b’peekaboo’) 


To access the server from a remote client, you need to create a corresponding RPC proxy 
class that forwards requests. For example: 


import pickle 


class RPCProxy: 
def _init_(self, connection): 
self. connection = connection 


def _ getattr_(self, name): 
def do_rpc(*args, **kwargs): 
self. connection.send(pickle.dumps((name, args, kwargs))) result = 
pickle.loads(self._connection.recv()) if isinstance(result, Exception): 


raise result 


return result 


return do_rpc 


To use the proxy, you wrap it around aconnection to the server. For example: 


>>> from multiprocessing.connection import Client 

>>> c = Client(('localhost', 17000), authkey=b'peekaboo' ) 

>>> proxy = RPCProxy(c) 

>>> proxy.add(2, 3) 
5 >>> proxy.sub(2, 3) -1 >>> proxy.sub([1, 2], 4) Traceback (most recent call last): 

File “<stdin>”, line 1, in <module> File “rpcserver.py”, line 37, in do_rpc 
raise result 

TypeError: unsupported operand type(s) for -: ‘list’ and ‘int’ >>> 
It should be noted that many messaging layers (such as multiprocessing) already se - rialize 


data using pickle. If this is the case, the pickle.dumps() and pickle.loads() calls can be 
eliminated. 


讨论 


The general idea of the RPCHandler and RPCProxy classes is relatively simple. If a client 
wants to call a remote function, such as foo(1, 2, z=3), the proxy class creates a tuple (‘foo’, 
(4, 2), {z: 3}) that contains the function name and arguments. This tuple is pickled and sent 
over the connection. This is performed in the do_rpc() closure that’s returned by the 

_ getattr_() method of RPCProxy. The server receives and unpickles the message, looks up 
the function name to see if it’s registered, and executes it with the given arguments. The 
result (or exception) is then pickled and sent back. As shown, the example relies on 
multiprocessing for communication. However, this approach could be made to work with 
just about any other messaging system. For ex - ample, if you want to implement RPC over 
ZeroMQ, just replace the connection objects with an appropriate ZeroMQ socket object. 
Given the reliance on pickle, security is a major concern (because a clever hacker can create 
messages that make arbitrary functions execute during unpickling). In particular, you 
should never allow RPC from untrusted or unauthenticated clients. In particular, you 
definitely don’t want to allow access from just any machine on the Internet—this should 
really only be used internally, behind a firewall, and not exposed to the rest of the world. As 
an alternative to pickle, you might consider the use of JSON, XML, or some other data 
encoding for serialization. For example, this recipe is fairly easy to adapt to JSON encoding 
if you simply replace pickle.loads() and pickle.dumps() with json.loads() and json.dumps(). 
For example: 


# jsonrpcserver.py import json 


class RPCHandler: 
def _init_(self): 
self. functions = { } 


def register_function(self, func): 
self. functions[func._name_] = func 


def handle_connection(self, connection): 
try: 
while True: 
# Receive a message func_name, args, kwargs = json.loads(connection.recv()) 


# Run the RPC and send a response try: 


r = self. functions[func_name](*args,**kwargs) 
connection.send(json.dumps(r)) 


except Exception as e: 
connection.send(json.dumps(str(e))) 


except EOFError: 
pass 


# jsonrpcclient.py import json 


class RPCProxy: 


def _init_(self, connection): 
self. connection = connection 


def _ getattr_(self, name): 
def do_rpc(*args, **kwargs): 
self. connection.send(json.dumps((name, args, kwargs))) result = 
json.loads(self. connection.recv()) return result 


return do_rpc 


One complicated factor in implementing RPC is how to handle exceptions. At the very least, 
the server shouldn't crash if an exception is raised by a method. However, the means by 
which the exception gets reported back to the client requires some study. If you’re using 
pickle, exception instances can often be serialized and reraised in the client. If you’re using 
some other protocol, you might have to think of an alternative approach. At the very least, 
you would probably want to return the exception string in the response. This is the 
approach taken in the JSON example. For another example of an RPC implementation, it 
can be useful to look at the imple - mentation of the SimpleXMLRPCServer and 
ServerProxy classes used in XML-RPC, as described in Recipe 11.6. 


11.9 简单 的 客户 端 认证 
问题 


You want a simple way to authenticate the clients connecting to servers in a distributed 
system, but don’t need the complexity of something like SSL. 


解决 方案 


Simple but effective authentication can be performed by implementing a connection 
handshake using the hmac module. Here is sample code: 


import hmac import os 


def client_authenticate(connection, secret_key): 
” Authenticate client to a remote service. connection represents a network connection. 
secret_key is a key known only to both client/server. ” message = connection.recv(32) 
hash = hmac.new(secret_key, message) digest = hash.digest() connection.send(digest) 


def server_authenticate(connection, secret_key): 
” Request client authentication.” message = os.urandom(32) 
connection.send(message) hash = hmac.new(secret_key, message) digest = hash.digest() 
response = connection.recv(len(digest)) return hmac.compare_digest(digest,response) 


The general idea is that upon connection, the server presents the client with a message of 
random bytes (returned by os.urandom(), in this case). The client and server both compute a 
cryptographic hash of the random data using hmac and a secret key known only to both 
ends. The client sends its computed digest back to the server, where it is compared and used 
to decide whether or not to accept or reject the connection. Comparison of resulting digests 
should be performed using the hmac.compare_di gest() function. This function has been 
written in a way that avoids timing-analysis- based attacks and should be used instead of a 
normal comparison operator (==). To use these functions, you would incorporate them into 
existing networking or mes - saging code. For example, with sockets, the server code might 
look something like this: 


from socket import socket, AF_INET, SOCK_STREAM 
secret_key = b’peekaboo’ def echo_handler(client_sock): 


if not server_authenticate(client_sock, secret_key): 
client_sock.close() return 


while True: 
msg = client_sock.recv(8192) if not msg: 
break 
client_sock.sendall(msg) 


def echo_server(address): 
s = socket(AF_INET, SOCK_STREAM) s.bind(address) s.listen(5) while True: 


ca = s.accept() echo_handler(c) 
echo server((", 18000)) 
Within a client, you would do this: 
from socket import socket, AF_INET, SOCK_STREAM 
secret_key = b’peekaboo’ 


s = socket(AF_INET, SOCK_STREAM) s.connect((‘localhost’, 18000)) client_authenticate(s, 
secret_key) s.send(b’Hello World’) resp = s.recv(1024) ... 


讨论 


A common use of hmac authentication is in internal messaging systems and interprocess 
communication. For example, if you are writing a system that involves multiple pro - cesses 
communicating across a cluster of machines, you can use this approach to make sure that 
only allowed processes are allowed to connect to one another. In fact, HMAC- based 
authentication is used internally by the multiprocessing library when it sets up 
communication with subprocesses. It’s important to stress that authenticating a 
connection is not the same as encryption. Subsequent communication on an authenticated 
connection is sent in the clear, and would be visible to anyone inclined to sniff the traffic 
(although the secret key known to both sides is never transmitted). The authentication 
algorithm used by hmac is based on cryptographic hashing functions, such as MD5 and 
SHA-1, and is described in detail in IETF RFC 2104. 


11.10 在 网 络 服务 中 加 入 SSL 
问题 


Youwantto implement a network service involving sockets where servers and clients 
authenticate themselves and encrypt the transmitted data using SSL. 


The ssl module provides support for adding SSL to low-level socket connections. In 
particular, the ssl.wrap_socket() function takes an existing socket and wraps an SSL layer 
around it. For example, here’s an example of a simple echo server that presents a server 
certificate to connecting clients: 


from socket import socket, AF_INET, SOCK_STREAM import ssl 


KEYFILE = ‘server_key.pem’ # Private key of the server CERTFILE = ‘server_cert.pem’ # 
Server certificate (given to client) 


def echo _client(s): 
while True: 
data = s.recv(8192) if data == b”: 


break 
s.send(data) 


s.close() print(‘Connection closed’) 


def echo_server(address): 
s = socket(AF_INET, SOCK_STREAM) s.bind(address) s.listen(1) 


# Wrap with an SSL layer requiring client certs s_ssl = ssl.wrap_socket(s, 


keyfile=KEYFILE, certfile=CERTFILE, server_side=True ) 


# Wait for connections while True: 


try: 
c,a=s_ssl.accept() print(‘Got connection’, c, a) echo_client(c) 


except Exception as e: 
print(‘{}: {}?.format(e._class_. name_,e)) 


echo_server((”, 20000)) 


Here’s an interactive session that shows how to connect to the server as a client. The client 
requires the server to present its certificate and verifies it: 


>>> from socket import socket, AF_INET, SOCK_STREAM 
>>> import ssl 
>>> s = socket(AF_INET, SOCK_STREAM) 
>>> s_ssl = ssl.wrap_socket(s, 
cert_reqs=ssl.CERT REQUIRED, 
ee ca_certs = 'server_cert.pem') 
>>> s_ssl.connect(('localhost', 2000@)) 
>>> s_ssl.send(b'Hello World?') 
12 
>>> s_ssl.recv(8192) 
b'Hello World?’ 
>>> 


The problem with all of this low-level socket hacking is that it doesn’t play well with existing 
network services already implemented in the standard library. For example, most server 
code (HTTP, XML-RPC, etc.) is actually based on the socketserver library. Client code is also 
implemented at a higher level. It is possible to add SSL to existing services, but a slightly 
different approach is needed. First, for servers, SSL can be added through the use of a mixin 
class like this: 


import ssl 


class SSLMixin: 
” Mixin class that adds support for SSL to existing servers based on the socketserver 
module.” def _ init__(self, *args, 


keyfile=None, certfile=None, ca_certs=None, cert_reqs=ssl.NONE, **kwargs): 


self._keyfile = keyfile self._certfile = certfile self. ca_certs = ca_certs self._cert_reqs = 
cert_reqs super()._ init_(*args, **kwargs) 


def get_request(self): 
client, addr = super().get_request() client_ssl = ssl.wrap_socket(client, 


keyfile = self._keyfile, certfile = self. certfile, ca_certs = self. ca_certs, cert_reqs = 
self._cert_reqs, server_side = True) 


return client_ssl, addr 


To use this mixin class, you can mix it with other server classes. For example, here’s an 
example of defining an XML-RPC server that operates over SSL: 


# XML-RPC server with SSL 


from xmirpc.server import SimplexMLRPCServer 


class SSLSimpleXMLRPCServer(SSLMixin, SimpleXMLRPCServer): 
pass 


Here’s the XML-RPC server from Recipe 11.6 modified only slightly to use SSL: 


import ssl from xmirpc.server import SimplexXMLRPCServer from sslmixin import SSLMixin 


class SSLSimpleXMLRPCServer(SSLMixin, SimpleXMLRPCServer): 
pass 


class KeyValueServer: 
_rpc_methods_ = [‘get’, ‘set’, ‘delete’, ‘exists’, ‘keys’] def _ init__(self, “args, **kwargs): 


self. data = {} self._serv = SSLSimpleXMLRPCServer(*args, allow_none=True, 
**kwargs) for name in self. rpc_ methods : 


self._serv.register_function(getattr(self, name)) 
def get(self, name): 
return self. data[name] 


def set(self, name, value): 
self. data[name] = value 


def delete(self, name): 
del self. data[name] 


def exists(self, name): 
return name in self. data 


def keys(self): 
return list(self. data) 


def serve_forever(self): 
self..serv.serve_forever() 


if name_==‘_main_’: 
KEYFILE=’server_key.pem’ # Private key of the server CERTFILE=’server_cert.pem’ # 
Server certificate kvserv = KeyValueServer((”, 15000), 


keyfile=KEYFILE, certfile=CERTFILE), 


kvserv.serve_forever() 


To use this server, you can connect using the normal xmlrpc.client module. Just spec - ifya 
https: in the URL. For example: 


>>> from xmlrpc.client import ServerProxy 
>>> s = ServerProxy('https://localhost:15000', allow_none=True) 
>>> s.set('foo','bar') 

>>> s.set('spam', [1, 2, 3]) 

>>> s.keys() 

['spam', 'foo'] 

>>> s.get('foo') 

‘bar’ 

>>> s.get('spam') 

[1, 2, 3] 

>>> s.delete('spam') 

>>> s.exists('spam') 

False 

>>> 


One complicated issue with SSL clients is performing extra steps to verify the server 
certificate or to present a server with client credentials (such as a client certificate). 
Unfortunately, there seems to be no standardized way to accomplish this, so research is 
often required. However, here is an example of how to set up asecure XML-RPC con - 
nection that verifies the server’s certificate: 


from xmirpc.client import SafeTransport, ServerProxy import ssl 


class VerifyCertSafeTransport(SafeTransport): 
def _ init_(self, cafile, certfile=None, keyfile=None): 
SafeTransport._ init__(self) self. ss|_context = 
ssI.SSLContext(ssl.LPROTOCOL_TLSv1) self._ssl_context.load_verify_locations(cafile) 


if cert: 


self._ssl_context.load_cert_chain(certfile, keyfile) 


self._ss|_context.verify_mode = ss].CERT_REQUIRED 


def make_connection(self, host): 
# Items in the passed dictionary are passed as keyword # arguments to the 


http.client.HTTPSConnection() constructor. # The context argument allows an 
ssl.SSLContext instance to # be passed with information about the SSL configuration 
s = super().make_connection((host, {‘context’: self. ss|_context})) 


returns 


# Create the client proxy s = ServerProxy(‘https://localhost:15000°, 


transport=VerifyCertSafeTransport(‘server_cert.pem’), allow_none=True) 


As shown, the server presents a certificate to the client and the client verifies it. This 
verification can go both directions. If the server wants to verify the client, change the server 


‘ } 


startup to the following: if _name_ =="_main_’: 


KEYFILE=’server_key.pem’ # Private key of the server CERTFILE=’server_cert.pem’ # 
Server certificate CA_CERTS='client_cert.pem’ # Certificates of accepted clients 


kvserv = KeyValueServer((“’, 15000), 
keyfile=KEYFILE, certfile=CERTFILE, ca_certs=CA_CERTS, 
cert_reqs=ssI.CERT_REQUIRED, ) 


kvserv.serve_forever() 


To make the XML-RPC client present its certificates, change the ServerProxy initiali - 
zation to this: 


# Create the client proxy s = ServerProxy(‘https://localhost:15000°, 


transport=VerifyCertSafeTransport(‘server_cert.pem’, 
‘client_cert.pem’, ‘client_key.pem), 


allow_none=True) 


讨论 


Getting this recipe to work will test your system configuration skills and understanding of 
SSL. Perhaps the biggest challenge is simply getting the initial configuration of keys, 
certificates, and other matters in order. To clarify what’s required, each endpoint of an SSL 


connection typically has a private key and a signed certificate file. The certificate file 
contains the public key and is pre - sented to the remote peer on each connection. For 
public servers, certificates are nor - mally signed by acertificate authority such as Verisign, 
Equifax, or similar organization (something that costs money). To verify server certificates, 
clients maintain a file con - taining the certificates of trusted certificate authorities. For 
example, web browsers maintain certificates corresponding to the major certificate 
authorities and use them to verify the integrity of certificates presented by web servers 
during HTTPS connections. For the purposes of this recipe, you can create what’s known as 
a self-signed certificate. Here’s how you do it: 


bash % openssl req -new -x509 -days 365 -nodes -out server_cert.pem 
-keyout server_key.pem 


Generating a 1024 bit RSA private Key .cee 十 十 十 十 十 十 ... 十 十 十 十 十 十 
writing new private key to ‘server_key.pem’ 


You are about to be asked to enter information that will be incorporated into your 
certificate request. What you are about to enter is what is called a Distinguished Name or a 
DN. There are quite a few fields but you can leave some blank For some fields there will bea 
default value, If you enter “‘’, the field will be left blank. 


Country Name (2 letter code) [AU]:US State or Province Name (full name) [Some- 
State]:Illinois Locality Name (eg, city) []:Chicago Organization Name (eg, company) 
[Internet Widgits Pty Ltd]: Dabeaz, LLC Organizational Unit Name (eg, section) []: Common 
Name (eg, YOUR name) []:localhost Email Address []: bash % 


When creating the certificate, the values for the various fields are often arbitrary. How - 
ever, the “Common Name’ field often contains the DNS hostname of servers. If you’re just 
testing things out on your own machine, use “localhost.” Otherwise, use the domain name 
of the machine that’s going to run the server. As a result of this configuration, you will have 
aserver_key.pem file that contains the private key. It looks like this: 


—-BEGIN RSA PRIVATE KEY—- 

MIICKQIBAAKBgQCZrCNLoEyAKF+f9UNcFaz5 Osaéjf7qkbUI8si5xQrY¥3ZYC7juu 
nL1idZLn/VbEFIITaUOgvBtPv1qUWTJGwga62VSG 10FEQOODIx3g2Nh4sRf+rySsx2 
L4442nx0z405vJQ7k6eRNHAZUUnCL50+YvjyLyt7ryLSjsukKhCcsbZgPwIDAQAB 
AoGAB5evrr7eyL4160tM5rHTeA TlaLY 3UBOe5Z8XN8Z6gLiB/ucSX9AysviV D/6F 
30D6z2aL8jbeJc1vHgjtOdC2dwwm32vVi8mRdyoAsQpWmigxXrkvP4Bsl04V pBeHw 
Qt8xNSW9SFhceL3LEvw9M 8i9MV3 9viih 1I_LyYH8OUHdvVJyFECQQDLE|jI2d2ppxND9 
PoLqVFAirDfX2JnLTdWbc+M 11a9Jdn3hKF8TcxfEnFVs5GaviMusicY5KBOylYPb 
YbTvqKc7AkEAwbnRBO 2VYEZsJZp2X0IZqP 9ovWokkpYx+PE4+c6MySDgaMcigL7v 
WDIHJG1CHudDOIGbqENasDzyb2HAIW4CzQJBAKDdkv+xoW6égJx42Auc2WzTCUHCA 
eXR/+BLpPrhKykzbvOQ8YvS5W764SUO0 1u1LWs3G+wnRMvrRvIMCZKgggBjkCQQCG 
Jewto2+at+WkOKQXrNNScCDE5aPTmZQc5waCYq4UmCZQcOjkUOIN3ST1U 5iuxRafb 
V/yX6fwOgh+fLWtkOs/JAkA+okMSxZwaqRtfgOFGBfwQ8/iKrnizeanTQ3L6scFX| 
CHZXdJ3KQ6qUMNxNn7iJ7S/LDawo1QfWkCfD9FYoxBlg —-END RSA PRIVATE 
KEY—- 


The server certificate in server_cert.pem looks similar: 


—-BEGIN CERTIFICATE—- 
MIIC+DCCAmGgAwlBAglJAPMd+vi45js3MAOGCSqGSIb3DQEBBQUAMFwxCzAJBgNV 


BAYTAIVTMREWDWYDVQQIEwhJbGxpbm9pczEQMA4GA 1UEBxMHQ2hpY 2FnbzEUMBIG 
A1UEChMLRGFIZWF6LCBMTEMxEjJAQBgNVBAMTCWxvY 2FsaG 9zdDAeFwOxMzAxMTEx 
ODQyMjdaFwOxNDAxMTExODQyMjdaMFwxCzAJBgNVBAYTAIVTMREwDwYDVQQIEwhJ 
bGxpbm9pczEQMA4GA1UEBXMHQ 2hpY 2FnbzEUMBIGA 1UEChMLRGFIZWF6LCBMTEMx 
EJ|AQBgNVBAMTCWxvY2FsaG 9zd DCBnzANBgkghkiG 3WOBAQEFAAOBjQAwgYkCgYEA 
mawjS6BMgChfn/VDXBWs+TrGuo3+6pG 1JfLIlucCUK2N2WAu47rpy9XWS5/1WxBSCE 
2IDoLwbT79alFkyRs|GutlUhtaBRNDgyMd4NjYeLEX/q3krMdit+OONp8dM+DubyU 


O50nkTRWGVFJwit+dPmL48i8re68i000rioQnCbG2Y DBCAWEAAaOBwT CBvjAdBgNV 
HQ4EFgQUrtoLHHgxiDZTr26NMmgkKJLJLFtlwgY4GA 1Ud|IwSBhjCBg4AUrtoLHHgX 
iIDZTr26NMmgkKJLJLFtKhYKReMFwxCzAJBgNVBAYTAIVTMREwDwYDVQQIEwhJbGxp 
bm9pczEQMA4GA1UEBXMHQ2hpY2FnbzEUMBIGATUECHMLRGFIZWF6LCBMTEMxEjAQ 
BgNVBAMTCWxvY 2FsaG 9zdIIJAPMd+vi45js3MAwGA1UdEwQFMAMBAf8wDQYJKoZI 
hvcNAQEFBQADgsYEAFcitdqvMG4xF8U TnbGVvZJPIzJDRee6Nbt6AHQo9pOdAIMAu 
WsGCpISOaDNdKKzl+b2UT2Zp3AIW4Qd51bouSNnR4M/gnr9ZD1ZctFd3jS+C5XRp 
D3vvcW5IAnCCC80P 6rXy7d 7hTeFuSEYKtRGXNVVNd/O6NALGDflrrOwxF3Y= 一 - 

END CERTIFICATE—- 


In server-related code, both the private key and certificate file will be presented to the 
various SSL-related wrapping functions. The certificate is what gets presented to clients. 
The private key should be protected and remains on the server. In client-related code, a 
special file of valid certificate authorities needs to be maintained to verify the server's 
certificate. If you have no such file, then at the very least, you can put a copy of the server’s 


certificate on the client machine and use that as a means for verification. During connection, 
the server will present its certificate, and then you'll use the stored certificate you already 
have to verify that it’s correct. Servers can also elect to verify the identity of clients. To do 
that, clients need to have their own private key and certificate key. The server would also 
need to maintain a file of trusted certificate authorities for verifying the client certificates. If 
you intend to add SSL support to a network service for real, this recipe really only gives a 
small taste of how to set it up. You will definitely want to consult the documen - tation for 
more of the finer points. Be prepared to spend a significant amount of time experimenting 
with it to get things to work. 


11.11 进程 间 传 递 Socket 文 件 描 述 符 
问题 


You have multiple Python interpreter processes running and you want to pass an open file 
descriptor from one interpreter to the other. For instance, perhaps there is a server process 
that is responsible for receiving connections, but the actual servicing of clients is to be 
handled by a different interpreter. 


To pass a file descriptor between processes, you first need to connect the processes 
together. On Unix machines, you might use a Unix domain socket, whereas on Win - dows, 
you could use a named pipe. However, rather than deal with such low-level mechanics, it is 
often easier to use the multiprocessing module to set up such a connection. 


Once a connection is established, you can use the send_handle() and recv_handle() 
functions in multiprocessing.reduction to send file descriptors between processes. The 
following example illustrates the basics: 


import multiprocessing from multiprocessing.reduction import recv_handle, send_handle 
import socket 


def worker(in_p, out_p): 
out_p.close() while True: 


fd = recv_handle(in_p) print(‘CHILD: GOT FD’, fd) with 
socket.socket(socket.AF_INET, socket.SOCK_STREAM, fileno=fd) as s: 


while True: 
msg = s.recv(1024) if not msg: 


break 
print(‘CHILD: RECV {!r}’.format(msg)) s.send(msg) 


def server(address, in_p, out_p, worker_pid): 
in_p.close() s = socket.socket(socket.AF_INET, socket SOCK_STREAM) 


s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, True) s.bind(address) 
s.listen(1) while True: 


client, addr = s.accept() print(‘SERVER: Got connection from’, addr) 
send_handle(out_p, client.fileno(), worker_pid) client.close() 


if name_==‘_main_’: 
c1,c2 = multiprocessing.Pipe() worker_p = multiprocessing.Process(target=worker, 
args=(c1,c2)) worker_p.start() 


server_p = multiprocessing.Process(target=server, 
args=((", 15000), c1, c2, worker_p.pid)) 


server_p.start() 


c1.close() c2.close() 


In this example, two processes are spawned and connected by a multiprocessing Pipe 
object. The server process opens a socket and waits for client connections. The worker 
process merely waits to receive a file descriptor on the pipe using recv_handle(). When the 
server receives a connection, it sends the resulting socket file descriptor to the worker 


using send_handle(). The worker takes over the socket and echoes data back to the client 
until the connection is closed. If you connect to the running server using Telnet or a similar 
tool, here is an example of what you might see: 


bash % python3 passfd.py SERVER: Got connection from (‘127.0.0.1’, 55543) CHILD: 
GOT FD 7 CHILD: RECV b’Hellorn’ CHILD: RECV b’Worldrn’ 


The most important part of this example is the fact that the client socket accepted in the 
server is actually serviced by a completely different process. The server merely hands it off, 
closes it, and waits for the next connection. 


讨论 


Passing file descriptors between processes is something that many programmers don’t 
even realize is possible. However, it can sometimes be a useful tool in building scalable 
systems. For example, on a multicore machine, you could have multiple instances of the 
Python interpreter and use file descriptor passing to more evenly balance the number of 
clients being handled by each interpreter. The send_handle() and recv_handle() functions 
shown in the solution really only work with multiprocessing connections. Instead of using a 
pipe, you can connect in - terpreters as shown in Recipe 11.7, and it will work as long as you 
use UNIX domain sockets or Windows pipes. For example, you could implement the server 
and worker as completely separate programs to be started separately. Here is the 
implementation of the server: 


# servermp.py from multiprocessing.connection import Listener from 
multiprocessing.reduction import send_handle import socket 


def server(work_address, port): 
# Wait for the worker to connect work_serv = Listener(work_address, 


authkey=b’peekaboo’) worker = work_serv.accept() worker_pid = worker.recv() 


# Now run a TCP/IP server and send clients to worker s = socket.socket(socket.AF_INET, 
socket. SOCK_STREAM) s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 
True) s.bind((”, port)) s.listen(1) while True: 


client, addr = s.accept() print(‘SERVER: Got connection from’, addr) 


send_handle(worker, client.fileno(), worker_pid) client.close() 


if name_==‘_main_’: 
import sys if len(sys.argv) != 3: 


print(‘Usage: server.py server_address port’, file=sys.stderr) raise SystemExit(1) 


server(sys.argv[1], int(sys.argv[2])) 


To run this server, you would run a command such as python3 servermp.py /tmp/ servconn 
15000. Here is the corresponding client code: 


# workermp.py 


from multiprocessing.connection import Client from multiprocessing.reduction import 
recv_handle import os from socket import socket, AF_INET, SOCK_STREAM 


def worker(server_address): 
serv = Client(server_address, authkey=b’peekaboo’) serv.send(os.getpid()) while True: 


fd = recv_handle(serv) print( WORKER: GOT FD’, fd) with socket(AF_INET, 
SOCK_STREAM, fileno=fd) as client: 


while True: 
msg = client.recv(1024) if not msg: 


break 


print( WORKER: RECV {!r}’format(msg)) client.send(msg) 
if name_==‘_main_’: 
import sys if len(sys.argv) != 2: 


print(‘Usage: worker.py server_address’, file=sys.stderr) raise SystemExit(1) 


worker(sys.argv| 1]) 


To run the worker, you would type python3 workermp.py /tmp/servconn. The result - ing 
operation should be exactly the same as the example that used Pipe(). Under the covers, file 
descriptor passing involves creating a UNIX domain socket and the sendmsg() method of 
sockets. Since this technique is not widely known, here is a different implementation of the 
server that shows how to pass descriptors using sockets: 


# server.py import socket 


import struct 


def send_fd(sock, fd): 
” Send a single file descriptor. ” sock.sendmsg([b’x’], 


[(socket.SOL_SOCKET, socket.SCM_RIGHTS, struct.pack(‘i’, fd))]) 


ack = sock.recv(2) assert ack == b’OK’ 


def server(work_address, port): 
# Wait for the worker to connect work_serv = socket.socket(socket.AF_UNIX, 


socket.SOCK_STREAM) work_serv.bind(work_address) work_serv.listen(1) worker, addr 
= work _serv.accept() 


# Now run a TCP/IP server and send clients to worker s = socket.socket(socket.AF_INET, 
socket. SOCK_STREAM) s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 
True) s.bind((",port)) s.listen(1) while True: 


client, addr = s.accept() print(‘SERVER: Got connection from’, addr) send_fd(worker, 
client.fileno()) client.close() 


’ 


if name_==‘_main_’: 


import sys if len(sys.argv) != 3: 


print(‘Usage: server.py server_address port’, file=sys.stderr) raise SystemExit(1) 
server(sys.argv[1], int(sys.argv[2])) 
Here is an implementation of the worker using sockets: 


# worker.py import socket import struct 
def recv_fd(sock): 


” Receive a single file descriptor ” msg, ancdata, flags, addr = sock.recvmsg(1, 


socket.CMSG_LEN(struct.calcsize(‘i’))) 


cmsg level, cmsg type, cmsg data = ancdata[O] assert cmsg_level == 
socket.SOL_SOCKET and cmsg type == socket.SCM_RIGHTS sock.sendall(b’OK’) 


return struct.unpack(‘i’, cmsg_data)[0] 


def worker(server_address): 
serv = socket.socket(socket.AF_UNIX, socket.SOCK_STREAM) 


serv.connect(server_address) while True: 


fd = recv_fd(serv) print( WORKER: GOT FD’, fd) with socket.socket(socket.AF_INET, 
socket.SOCK_STREAM, fileno=fd) as client: 


while True: 
msg = client.recv(1024) if not msg: 


break 


print( WORKER: RECV {!r}’format(msg)) client.send(msg) 


了 


if name_==‘_main_’: 
import sys if len(sys.argv) != 2: 


print(‘Usage: worker.py server_address’, file=sys.stderr) raise SystemExit(1) 
worker(sys.argv| 1]) 


If you are going to use file-descriptor passing in your program, it is advisable to read more 
about it in an advanced text, such as Unix Network Programming by W. Richard Stevens 
(Prentice Hall, 1990). Passing file descriptors on Windows uses a different technique than 
Unix (not shown). For that platform, it is advisable to study the source code to 
multiprocessing.reduction in close detail to see how it works. 


11.12 理解 事件 驱动 的 IO 


问题 


You have heard about packages based on “event-driven” or “asynchronous” I/O, but you’re 
not entirely sure what it means, how it actually works under the covers, or how it might 
impact your program if you use it. 


At a fundamental level, event-driven I/O is a technique that takes basic I/O operations (e.g., 
reads and writes) and converts them into events that must be handled by your program. For 
example, whenever data was received on a socket, it turns into a “receive” event that is 
handled by some sort of callback method or function that you supply to respond to it. As a 
possible starting point, an event-driven framework might start with a base class that 
implements a series of basic event handler methods like this: 


class EventHandler: 
def fileno(self): 
‘Return the associated file descriptor raise NotImplemented (‘must implement’) 


def wants_to_receive(self): 
‘Return True if receiving is allowed’ return False 


def handle_receive(self): 
‘Perform the receive operation’ pass 


def wants_to_send(self): 
‘Return True if sending is requested’ return False 


def handle_send(self): 
‘Send outgoing data’ pass 


Instances of this class then get plugged into an event loop that looks like this: 
import select 


def event_loop(handlers): 
while True: 


wants_recv = [h for hin handlers if h.wants_to_receive()] wants_send = [h for hin 
handlers if h.wants_to_send()] can_recv,can_send,_ = select.select(wants_recv, 
wants_send, []) for h in can_recv: 


h.handle_receive() 


for hin can_send: 
h.handle_send() 


That’s it! The key to the event loop is the select() call, which polls file descriptors for activity. 
Prior to calling select(), the event loop simply queries all of the handlers to see which ones 
want to receive or send. It then supplies the resulting lists to select(). As a result, select() 
returns the list of objects that are ready to receive or send. The corresponding 
handle_receive() or handle_send() methods are triggered. To write applications, specific 
instances of EventHandler classes are created. For ex - ample, here are two simple handlers 
that illustrate two UDP-based network services: 


import socket import time 


class UDPServer(EventHandler): 
def _init_(self, address): 
self.sock = socket.socket(socket.AF_INET, socket. SOCK_DGRAM) 
self.sock.bind(address) 


def fileno(self): 
return self.sock.fileno() 


def wants_to_receive(self): 
return True 


class UDPTimeServer(UDPServer): 
def handle_receive(self): 
msg, addr = self.sock.recvfrom(1) self.sock.sendto(time.ctime().encode(‘ascii’), addr) 


class UDPEchoServer(UDPServer): 
def handle_receive(self): 
msg, addr = self.sock.recvfrom(8192) self.sock.sendto(msg, addr) 


if name_==‘_main_’: 
handlers = [ UDPTimeServer((’,14000)), UDPEchoServer((’,15000)) ] 
event_loop(handlers) 


To test this code, you can try connecting to it from another Python interpreter: 


>>> from socket import * 

>>> s = socket(AF_INET, SOCK_DGRAM) 

>>> s.sendto(b'',('localhost' ,14666 1) ) 

0 

>>> s.recvfrom(128) 

(b'Tue Sep 18 14:29:23 2012', ('127.0.0.1', 140@0)) 
>>> s.sendto(b'Hello',('‘localhost' ,1500@) ) 
5 

>>> s.recvfrom(128) 

(b'Hello', ('127.0.0.1', 1500@)) 

>>> 


Implementing a TCP server is somewhat more complex, since each client involves the 
instantiation of a new handler object. Here is an example of a TCP echo client. 


class TCPServer(EventHandler): 
def _init_(self, address, client_handler, handler _list): 
self.sock = socket.socket(socket.AF_INET, socket. SOCK_STREAM) 
self.sock.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, True) 
self.sock.bind(address) self.sock.listen(1) self.client_handler = client_handler 
self.handler_list = handler_list 


def fileno(self): 
return self.sock.fileno() 


def wants_to_receive(self): 
return True 


def handle_receive(self): 
client, addr = self.sock.accept() # Add the client to the event loop’s handler list 
self.handler_list.append(self.client_handler(client, self.handler_list)) 


class TCPClient(EventHandler): 
def _init_(self, sock, handler _list): 
self.sock = sock self.handler_list = handler_list self.outgoing = bytearray/() 


def fileno(self): 
return self.sock.fileno() 


def close(self): 
self.sock.close() # Remove myself from the event loop’s handler list 
self.handler_list.remove(self) 


def wants_to_send(self): 
return True if self.outgoing else False 


def handle_send(self): 
nsent = self.sock.send(self.outgoing) self.outgoing = self.outgoing[nsent:] 


class TCPEchoClient(TCPClient): 
def wants_to_receive(self): 
return True 


def handle_receive(self): 
data = self.sock.recv(8192) if not data: 


self.close() 


else: 
self.outgoing.extend(data) 


‘ I 


if name_==‘_main_’: 
handlers = [] handlers.append(TCPServer((",16000), TCPEchoClient, handlers)) 
event_loop(handlers) 


The key to the TCP example is the addition and removal of clients from the handler list. On 
each connection, a new handler is created for the client and added to the list. When the 
connection is closed, each client must take care to remove themselves from the list. If you 
run this program and try connecting with Telnet or some similar tool, you'll see it echoing 
received data back to you. It should easily handle multiple clients. 


讨论 


Virtually all event-driven frameworks operate in a manner that is similar to that shown in 
the solution. The actual implementation details and overall software architecture might 
vary greatly, but at the core, there is a polling loop that checks sockets for activity and which 
performs operations in response. One potential benefit of event-driven I/O is that it can 
handle a very large number of simultaneous connections without ever using threads or 
processes. That is, the se lect() call (or equivalent) can be used to monitor hundreds or 
thousands of sockets and respond to events occuring on any of them. Events are handled 
one at atime by the event loop, without the need for any other concurrency primitives. The 
downside to event-driven I/O is that there is no true concurrency involved. If any of the 
event handler methods blocks or performs a long-running calculation, it blocks the progress 
of everything. There is also the problem of calling out to library functions that aren’t written 
in an event-driven style. There is always the risk that some library call will block, causing the 
event loop to stall. Problems with blocking or long-running calculations can be solved by 
sending the work out to a separate thread or process. However, coordinating threads and 
processes with an event loop is tricky. Here is an example of code that will do it using the 
concur rent.utures module: 


from concurrent.futures import ThreadPoolExecutor import os 


class ThreadPoolHandler(EventHandler): 
def _init_(self, nworkers): 
if os.name == ‘posix’: 
self.signal_done_sock, self.done_sock = socket.socketpair() 


else: 
server = socket.socket(socket. AF_INET, socket. SOCK_STREAM) 


server.bind((‘127.0.0.1’, 0)) server.listen(1) self.signal_done_sock = 
socket.socket(socket.AF_INET, 


socket.SOCK_STREAM) 


self.signal_done_sock.connect(server.getsockname()) self.done_sock, _ = 
server.accept() server.close() 


self.pending = [] selfpool = ThreadPoolExecutor(nworkers) 


def fileno(self): 
return self.done_sock.fileno() 


# Callback that executes when the thread is done def __complete(self, callback, r): 


self.pending.append((callback, r.result())) self.signal_done_sock.send(b’x’) 


# Run a function in a thread pool def run(self, func, args=(), kwargs={},*,callback): 


r =self.pool.submit(func, *args, **kwargs) r.add_done_callback(lambda r: 
self. complete(callback, r)) 


def wants_to_receive(self): 
return True 


# Run callback functions of completed work def handle_receive(self): 
# Invoke all pending callback functions for callback, result in self.pending: 


callback(result) self.done_sock.recv(1) 
self.pending = [] 


In this code, the run() method is used to submit work to the pool along with a callback 
function that should be triggered upon completion. The actual work is then submitted to a 
ThreadPoolExecutor instance. However, a really tricky problem concerns the co - 
ordination of the computed result and the event loop. To do this, a pair of sockets are 
created under the covers and used as a kind of signaling mechanism. When work is 
completed by the thread pool, it executes the _complete() method in the class. This method 
queues up the pending callback and result before writing a byte of data on one of these 
sockets. The fileno() method is programmed to return the other socket. Thus, when this 
byte is written, it will signal to the event loop that something has happened. The 
handle_receive() method, when triggered, will then execute all of the callback functions for 
previously submitted work. Frankly, it’s enough to make one’s head spin. Here is a simple 
server that shows how to use the thread pool to carry out a long-running calculation: 


# A really bad Fibonacci implementation def fib(n): 
ifn <2: 
return 1 
else: 


return fib(n - 1) + fib(n - 2) 


class UDPFibServer(UDPServer): 
def handle_receive(self): 
msg, addr = self.sock.recvfrom(128) n = int(msg) pool.run(fib, (n,), callback=lambda r: 


self.respond(r, addr)) 


def respond(self, result, addr): 
self.sock.sendto(str(result).encode(‘ascii’), addr) 


if name_==‘_main_’: 
pool = ThreadPoolHandler(16) handlers = [ pool, UDPFibServer((”,16000)) | 
event_loop(handlers) 


To try this server, simply run it and try some experiments with another Python program: 
from socket import * sock = socket(AF_INET, SOCK_DGRAM) for x in range(40): 


sock.sendto(str(x).encode(‘ascii’), (‘localhost’, 16000)) resp = sock.recvfrom(8192) 
print(resp[O]) 


You should be able to run this program repeatedly from many different windows and have 
it operate without stalling other programs, even though it gets slower and slower as the 
numbers get larger. Having gone through this recipe, should you use its code? Probably not. 
Instead, you should look for a more fully developed framework that accomplishes the same 
task. However, if you understand the basic concepts presented here, you'll understand the 
core techniques used to make such frameworks operate. As an alternative to callback- 
based programming, event-driven code will sometimes use coroutines. See Recipe 12.12 for 
an example. 


11.13 发 送 与 接收 大 型 数组 
问题 


You want to send and receive large arrays of contiguous data across a network connec - 
tion, making as few copies of the data as possible. 


The following functions utilize memoryviews to send and receive large arrays: 
# Zerocopy.py 


def send from(arr, dest): 
view = memoryview(arr).cast(‘B’) while len(view): 


nsent = dest.send(view) view = view[nsent:] 


def recv_into(arr, source): 


view = memoryview(arr).cast(‘B’) while len(view): 


nrecv = source.recv_into(view) view = view[nrecv:] 


To test the program, first create a server and client program connected over a socket. In the 
server: 


>>> from socket import * 

>>> s = socket(AF_INET, SOCK_STREAM) 
>>> s.bind(('', 2500@)) 

>>> s.listen(1) 

>>> C,a = S.accept() 

>>> 


In the client (in a separate interpreter): 


>>> from socket import * 

>>> c = socket(AF_INET, SOCK _STREAM) 
>>> c.connect(( ‘localhost’, 25000) ) 
>>> 


Now, the whole idea of this recipe is that you can blast a huge array through the con - 
nection. In this case, arrays might be created by the array module or perhaps numpy. For 
example: # Server >>> import numpy >>> a=numpy.arange(0.0, 50000000.0) >>> 
send_from(a, c) >>> 


# Client >>> import numpy >>> a = numpy.zeros(shape=50000000, dtype=float) >>> 
a[0:10] array([ O., O., O., O., O., O., O., O., O., 0.]) >>> recv_into(a, c) >>> a[0:10] array([ O., 1., 2., 3,, 
4,5,6., 7,8,91) >>> 


讨论 


In data-intensive distributed computing and parallel programming applications, it’s not 
uncommon to write programs that need to send/receive large chunks of data. However, to 
do this, you somehow need to reduce the data down to raw bytes for use with low- level 
network functions. You may also need to slice the data into chunks, since most network- 
related functions aren't able to send or receive huge blocks of data entirely all at once. One 
approach is to serialize the data in some way—possibly by converting into a byte string. 
However, this usually ends up making a copy of the data. Even if you do this piecemeal, your 
code still ends up making a lot of little copies. 


This recipe gets around this by playing a sneaky trick with memoryviews. Essentially, a 
memoryview is an overlay of an existing array. Not only that, memoryviews can be cast to 
different types to allow interpretation of the data in a different manner. This is the purpose 
of the following statement: view = memoryview(arr).cast(‘B’) 


It takes an array arr and casts into a memoryview of unsigned bytes. In this form, the view 
can be passed to socket-related functions, such as sock.send() or send.recv_into(). Under 
the covers, those methods are able to work directly with the memory region. For example, 
sock.send() sends data directly from memory without a copy. send.recv_into() uses the 
memoryview as the input buffer for the receive operation. The remaining complication is 
the fact that the socket functions may only work with partial data. In general, it will take 
many different send() and recv_into() calls to transmit the entire array. Not to worry. After 
each operation, the view is sliced by the number of sent or received bytes to produce a new 
view. The new view is also a memory overlay. Thus, no copies are made. One issue here is 
that the receiver has to know in advance how much data will be sent so that it can either 
preallocate an array or verify that it can receive the data into an existing array. If this is a 
problem, the sender could always arrange to send the size first, followed by the array data. 


第 十 二 章 : 并 发 编程 
对 于 并 发 编程 , Python 有 多 种 长 期 支持 的 方法 ,包括 多 线程, 调用 子 进程 ,以 及 各 种 各 样 的 关 


于 生成 器 函数 的 技巧 .这 一 章 将 会 给 出 并 发 编程 各 种 方面 的 技巧 ,包括 通用 的 多 线程 技术 以 
及 并 行 计算 的 实现 方法 . 
































像 经 验 丰 富 的 程序 员 所 知道 的 那样 , 大 家 担心 并 发 的 程序 有 潜在 的 危险 . 因此 , 本章 的 主要 
目标 之 一 是 给 出 更 加 可 信赖 和 易 调 试 的 代码 . 








Contents: 

12.1 启动 与 停止 线程 

问题 

你 要 为 需要 并 发 执行 的 代码 创建 /销毁 线程 

解决 方案 

threading 库 可 以 在 单独 的 线程 中 执行 任何 的 在 Python 中 可 以 调用 的 对 象 。 你 可 以 创建 


— thread 对 象 并 将 你 要 执行 的 对 象 以 target 参数 的 形式 提供 给 该 对 象 。 下 面 是 一 个 简 
单 的 例子 : 





# Code to execute in an independent thread 
import time 
def countdown(n): 

while n > @: 

print('T-minus', n) 

n -= 1 

time.sleep(5) 


# Create and Launch a thread 

from threading import Thread 

t = Thread(target=countdown, args=(10,)) 
t.start() 


当 你 创建 好 一 个 线程 对 象 后 ， 该 对 象 并 不 会 立即 执行 ， 除 非 你 调用 它 的 starto 方法 
( 当 你 调用 start() | 方法 时 ， 它 会 调用 你 传递 进来 的 函数 ， 并 把 你 传递 进来 的 参数 传递 
给 该 函数 ) 。Python 中 的 线程 会 在 一 个 单独 的 系统 级 线程 中 执行 (比如 说 一 个 POSIX 线 
程 或 者 一 个 Windows 线程 ) ， 这 些 线程 将 由 操作 系统 来 全 权 管 理 。 线 程 一 旦 启动 ， 将 独 
立 执行 直到 目标 函数 返回 。 你 可 以 查询 一 个 线程 对 象 的 状态 ， 看 它 是 否 还 在 执行 ; 



































if t.is_alive(): 
print('Still running’ ) 
else: 
print( ‘Completed’ ) 


你 也 可 以 将 一 个 线程 加 入 到 当前 线程 ， 并 等 待 它 终止 : 


t.join() 


Python 解释 器 在 所 有 线程 都 终止 后 才 继续 执行 代码 剩余 的 部 分 。 对 于 需要 长 时 间 运 行 的 
线程 或 者 需要 一 直 运行 的 后 台 任 务 ， 你 应 当 考 虑 使 用 后 台 线 程 。 例 如 : 











t = Thread(target=countdown, args=(10,), daemon=True) 
t.start() 


后 台 线 程 无 法 等 待 ， 不 过 ， 这 些 线程 会 在 主线 程 终止 时 自动 销毁 。 除 了 如 上 所 示 的 两 个 

操作 ， 并 没有 太 多 可 以 对 线程 做 的 事情 。 你 无 法 结束 一 个 线程 ， 无 法 给 它 发 送信 号 ， 无 法 
调整 它 的 调度 ， 也 无 法 执行 其 他 高 级 操作 。 如 果 需 要 这 些 特性 ， 你 需要 自己 添加 。 比 如 

说 ， 如 果 你 需要 终止 线程 ， 那 么 这 个 线程 必须 通过 编程 在 某 个 特定 点 轮 询 来 退出 。 你 可 以 
像 下 边 这 样 把 线程 放 入 一 个 类 中 : 















































class CountdownTask: 
def __init__(self): 
self. running = True 


def terminate(self): 
self. running = False 


def run(self, n): 
while self. running and n > @: 
print('T-minus’, n) 
n -= 
time.sleep(5) 


CountdownTask() 

= Thread(target=c.run, args=(10,)) 
.Start() 

.terminate() # Signal termination 


(a 


.join() # Wait for actual termination (if needed) 


如 果 线 程 执行 一 些 像 VO 这 样 的 阻塞 操作 ， 那 么 通过 轮 询 来 终止 线程 将 使 得 线程 之 间 的 协 
调 变 得 非常 坏 手 。 比 如 ， 如 果 一 个 线程 一 直 阻 塞 在 一 个 MO 操作 上 ， 它 就 永远 无 法 返回 ， 
也 就 无 法 检查 自己 是 否 已 经 被 结束 了 。 要 正确 处 理 这 些 问 题 ， 你 需要 利用 超时 循环 来 小 心 
操作 线程 。 例 子 如 下 : 
























































class IOTask : 
def terminate(self): 
self. running = False 


def run(self, sock): 
# sock is a socket 
sock.settimeout(5) # Set timeout period 
while self. running: 
# Perform a blocking I/O operation w/ timeout 
try: 
data = sock.recv(8192) 
break 
except socket.timeout: 
continue 
# Continued processing 


# Terminated 
return 








由 于 全 局 解释 锁 〈GIL) 的 原因 ，Python 的 线程 被 限制 到 同一 时 刻 只 允许 一 个 线程 执行 这 
样 一 个 执行 模型 。 所 以 ，Python 的 线程 更 适用 于 处 理 MO 和 其 他 需要 并 发 执行 的 阻塞 操作 
《比如 等 待 WO、 等 竺 从 数据 库 获 取 数 据 等 等 ) ， 而 不 是 需要 多 处 理 器 并 行 的 计算 密集 型 
任务 。 






































有 时 你 会 看 到 下 边 这 种 通过 继承 Thread 类 来 实现 的 线程 : 


from threading import Thread 


class CountdownThread(Thread): 
def __init__(self, n): 
super().__init__() 
self.n = 0 
def run(self): 
while self.n > @: 


print('T-minus', self.n) 
self.n -= 1 
time.sleep(5) 


c = CountdownThread(5) 
c.start() 


尽管 这 样 也 可 以 工作 ， 但 这 使 得 你 的 代码 依赖 于 threading 库 ， 所 以 你 的 这 些 代码 只 能 在 
线程 上 下 文中 使 用 。 上 文 所 写 的 那些 代码 、 函 数 都 是 与 threading 库 无 关 的 ， 这 样 就 使 得 
这 些 代码 可 以 被 用 在 其 他 的 上 下 文中 ， 可 能 与 线程 有 关 ， 也 可 能 与 线程 无 天。 比如 ， 你 可 
以 通过 multiprocessing 模块 在 一 个 单独 的 进程 中 执行 你 的 代码 : 





import multiprocessing 

c = CountdownTask(5) 

p = multiprocessing.Process(target=c.run) 
p.start() 


再 次 重申 ， 这 段 代码 仅 适用 于 CountdownTask 类 是 以 独立 于 实际 的 并 发 手段 (多 线程 、 
多 进程 等 等 ) 实现 的 情况 。 








12.2 判断 线程 是 否 已 经 局 动 





问题 





你 已 经 局 动 了 一 个 线程 ， 但 是 你 想 知 道 它 是 不 是 真 的 已 经 开始 运行 了 。 





线程 的 一 个 关键 特性 是 每 个 线程 都 是 独立 运行 且 状 态 不 可 预测 。 如 果 程 序 中 的 其 他 线程 需 
要 通过 判断 某 个 线程 的 状态 来 确定 自己 下 一 步 的 操作 ， 这 时 线程 同步 问题 就 会 变 得 非常 环 
手 。 为 了 解决 这 些 问题 ， 我 们 需要 使 用 threading 库 中 的 Event 对 象 。 Event 对 象 包含 
一 个 可 由 线程 设置 的 信号 标志 ， 它 允许 线程 等 待 某 些 事件 的 发 生 。 在 初始 情况 下 ，event 
对 象 中 的 信号 标志 被 设置 为 假 。 如 果 有 线程 等 待 一 个 event 对 象 ， 而 这 个 event 对 象 的 标 
志 为 假 ， 那 么 这 个 线程 将 会 被 一 直 阻 塞 直 至 该 标志 为 真 。 一 个 线程 如 果 将 一 个 event TR 
的 信号 标志 设置 为 真 ， 它 将 唤醒 所 有 等 待 这 个 event 对 象 的 线程 。 如 果 一 个 线程 等 待 一 个 
已 经 被 设置 为 真 的 event 对 象 ， 那 么 它 将 忽略 这 个 事件 ， 继 续 执行 。 下 边 的 代码 展示 了 如 
何 使 用 event 来 协调 线程 的 启动 : 









































from threading import Thread, Event 
import time 


# Code to execute in an independent thread 
def countdown(n, started evt): 
print('countdown starting') 
started evt.set() 
while n > @: 
print('T-minus', n) 
n -= 
time.sleep(5) 


# Create the event object that will be used to signal startup 
started_evt = Event() 


# Launch the thread and pass the startup event 
print( ‘Launching countdown’ ) 

t = Thread(target=countdown, args=(10,started_evt)) 
t.start() 


# Wait for the thread to start 
started_evt.wait() 
print( ‘countdown is running’) 


RAT IX BRAS, “countdown is running” 总 是 显示 在 “countdown starting” 之 后 显示 。 
这 是 由 于 使 用 event 来 协调 线程 ， 使 得 主线 程 要 等 到 countdown() 函数 输出 启动 信息 后 ， 
才能 继续 执行 。 








讨论 


event 对 象 最 好 单 次 使 用 ， 就 是 说 ， 你 创建 一 个 event 对 象 ， 让 某 个 线程 等 待 这 个 对 象 ， 

一 旦 这 个 对 象 被 设置 为 真 ， 你 就 应 该 丢弃 它 。 尽 管 可 以 通过 clero 方法 来 重 置 event 对 
象 ， 但 是 很 难 确保 安全 地 清理 event 对 象 并 对 它 重 新 赋值 。 很 可 能 会 发 生 错过 事件 、 死 锁 
或 者 其 他 问题 (特别 是 ， 你 无 法 保证 重 置 event 对 象 的 代码 会 在 线程 再 次 等 待 这 个 event 


























对 象 之 前 执行 ) 。 如 果 一 个 线程 需要 不 停 地 重复 使 用 event 对 象 ， 你 最 好 使 用 condition 
对 象 来 代替 。 下 面 的 代码 使 用 condition 对 象 实现 了 一 个 周期 定时 器 ， 每 当 定 时 器 超时 的 
时 候 ， 其 他 线程 都 可 以 监测 到 : 


import threading 
import time 


class PeriodicTimer: 
def __init__(self, interval): 
self._interval = interval 
self._flag = 6 
self. cv = threading.Condition() 


def start(self): 
t = threading. Thread(target=self.run) 
t.daemon = True 


t.start() 


def run(self): 


Run the timer and notify waiting threads after each interval 
while True: 
time.sleep(self. interval) 
with self._cv: 
self. flag ^= 1 
self._cv.notify_all() 


def wait_for_tick(self): 


Wait for the next tick of the timer 
with self._cv: 
last flag = self. flag 
while last_flag == self. flag: 
self._cv.wait() 


# Example use of the timer 
ptimer = PeriodicTimer(5) 
ptimer.start() 


# Two threads that synchronize on the timer 
def countdown(nticks): 
while nticks > @: 
ptimer.wait_for_tick() 
print('T-minus', nticks) 
nticks -= 


def countup(last): 
n= 0 
while n < last: 
ptimer.wait_for_tick() 
print('Counting', n) 
n += 1 


threading.Thread(target=countdown, args=(10,)).start() 
threading. Thread(target=countup, args=(5,)).start() 





event 对 象 的 一 个 重要 特点 是 当 它 被 设置 为 真 时 会 唤醒 所 有 等 待 它 的 线程 。 如 果 你 只 想 唤 
醒 单个 线程 ， 最 好 是 使 用 信和 号 量 或 者 condition 对 象 来 替代 。 考 虑 一 下 这 段 使 用 信号 量 实 
现 的 代码 : 








# Worker thread 

def worker(n, sema): 
# Wait to be signaled 
sema.acquire() 


# Do some work 
print( ‘Working’, n) 


# Create some threads 

sema = threading.Semaphore(@) 

nworkers = 10 

for n in range(nworkers): 
t = threading.Thread(target=worker, args=(n, sema,)) 
t.start() 





运行 上 边 的 代码 将 会 启动 一 个 线程 池 ， 但 是 并 没有 什么 事情 发 生 。 这 是 因为 所 有 的 线程 都 
企 等 待 获取 信号 量 。 每 次 信号 量 被 释放 ， 只 有 一 个 线程 会 被 唤醒 并 执行 ， 示 例如 下 : 


























>>> sema.release() 
Working 6 

>>> sema.release() 
Working 1 

>>> 


编写 涉及 到 大 量 的 线程 间 同 步 问题 的 代码 会 让 你 痛不欲生 。 比 较 合适 的 方式 是 使 用 队列 来 
进行 线程 间 通 信 或 者 每 个 把 线程 当 作 一 个 Actor， 利 用 Actor 模 型 来 控制 并 发 。 下 一 节 将 会 
介绍 到 队列 ， 而 Actor 模 型 将 在 12.10 节 介绍 。 


























12.3 线程 间 通 信 
问题 





你 的 程序 中 有 多 个 线程 ， 你 需要 在 这 些 线程 之 间 安 全 地 交换 信息 或 数据 











从 一 个 线程 向 另 一 个 线程 发 送 数据 最 安全 的 方式 可 能 就 是 使 用 queue 库 中 的 队列 了 。 创 
建 一 个 被 多 个 线程 共享 的 Queue 对 象 ， 这 些 线程 通过 使 用 put() 和 get() 操作 来 向 队列 
中 添加 或 者 删除 元 素 。 例如: 














Queue 对 象 已 经 包含 了 必要 的 锁 ， 所 以 你 可 以 通过 它 在 多 个 线程 间 多 安全 地 共享 数据 。 
当 使 用 队列 时 ， 协 调 生产 者 和 消费 者 的 关闭 问题 可 能 会 有 一 些 麻 烦 。 一 个 通用 的 解雇 方 法 
是 在 队列 中 放置 一 个 特殊 的 只 ， 当 消费 者 读 到 这 个 值 的 时 候 ， 终 止 执 行 。 例 如 : 























from queue import Queue 
from threading import Thread 


# Object that signals shutdown 
_sentinel = object() 


# A thread that produces data 
def producer (out_q): 
while running: 
# Produce some data 


out_q.put(data) 


# Put the sentinel on the queue to indicate completion 
out_q.put(_sentinel) 


# A thread that consumes data 
de 


-h 


consumer (in_q): 

while True: 
# Get some data 
data = in_q.get() 


# Check for termination 

if data is _sentinel: 
in_q.put(_sentinel) 
break 


# Process the data 








本 例 中 有 一 个 特殊 的 地 方 : 消费 者 在 读 到 这 个 特殊 值 之 后 立即 又 把 它 放 回 到 队列 中 ， 将 之 
传递 下 去 。 这 样 ， 所 有 监听 这 个 队列 的 消费 者 线程 就 可 以 全 部 关闭 了 。 尽管 队列 是 最 常 
见 的 线程 间 通 信 机 制 ， 但 是 仍然 可 以 自己 通过 创建 自己 的 数据 结构 并 添加 所 需 的 锁 和 同步 
机 制 来 实现 线程 间 通 信 。 最 常见 的 方法 是 使 用 condition 变量 来 包装 你 的 数据 结构 。 下 边 
这 个 例子 演示 了 如 何 创建 一 个 线程 安全 的 优先 级 队列 ， 如 同 1.5 节 中 介绍 的 那样 。 





























import heapq 
import threading 


class PriorityQueue: 
def __init__(self): 
self. queue = [] 
self._count = 6 
self._cv = threading.Condition() 
def put(self, item, priority): 
with self._cv: 
heapq.heappush(self. queue, (-priority, self. count, item) ) 
self. count += 1 
self._cv.notify() 


def get(self): 
with self._cv: 
while len(self. queue) == 
self._cv.wait() 
return heapq.heappop(self. queue)[-1] 








使 用 队列 来 进行 线程 间 通 信和 是 一 个 单 向 、 不 确定 的 过 程 。 通 第 情况 下 ， 你 没有 办 法 知道 接 
收 数 据 的 线程 是 什么 时 候 接收 到 的 数据 并 开始 工作 的 。 不 过 队列 对 象 提供 一 些 基 本 完成 的 
特性 ， 比如 下 边 这 个 例子 中 的 task_done() 和 join() : 








from queue import Queue 
from threading import Thread 


# A thread that produces data 
def producer (out_q): 
while running: 
# Produce some data 


out_q.put(data) 


# A thread that consumes data 
def consumer(in_q): 
while True: 
# Get some data 
data = in_q.get() 


# Process the data 


# Indicate completion 
in_q.task_done() 


# Create the shared queue and Launch both threads 
= Queue() 

t1 = Thread(target=consumer, args=(q,)) 

t2 = Thread(target=producer, args=(q,)) 

ti.start() 

t2.start() 


# Wait for all produced items to be consumed 
q.join() 


























如 果 一 个 线程 需要 在 个 消费 者 线程 处 理 完 特定 的 数据 项 时 交 即 得 到 通知 ， 你 可 以 把 要 
发 送 的 数据 和 一 个 event 放 到 一 起 使 用 ， 这 样 "生产 者 "就 可 以 通过 这 个 Event 对 象 来 监测 
处 理 的 过 程 了 。 示 例如 下 : 





























from queue import Queue 
from threading import Thread, Event 


# A thread that produces data 
def producer (out_q): 
while running: 
# Produce some data 


# Make an (data, event) pair and hand it to the consumer 
evt = Event() 
out_q.put((data, evt)) 


# Wait for the consumer to process the item 
evt.wait() 


# A thread that consumes data 
def consumer(in_q): 
while True: 
# Get some data 
data, evt = in_q.get() 
# Process the data 


# Indicate completion 
evt.set() 


讨论 


基于 简单 队列 编写 多 线程 程序 在 多 数 情 况 下 是 一 个 比较 明智 的 选择 。 从 线程 安全 队列 的 底 
层 实 现 来 看 ， 你 无 需 在 你 的 代码 中 使 用 锁 和 其 他 底层 的 同步 机 制 ， 这 些 只 会 把 你 的 程序 乔 
得 乱七八糟 。 此 外 ， 使 用 队列 这 种 基于 消息 的 通信 机 制 可 以 被 扩展 到 更 大 的 应 用 范畴 ， 比 
如 ， 你 可 以 把 你 的 程序 放 入 多 个 进程 甚至 是 分 布 式 系 统 而 无 需 改 变 底层 的 队列 结构 。 使 
用 线程 队列 有 一 个 要 注意 的 问题 是 ， 向 队列 中 添加 数据 项 时 并 不 会 复制 此 数据 项 ， 线 程 间 
通信 实际 上 是 在 线程 间 传递 对 象 引用 。 如 果 你 担心 对 象 的 共享 状态 ， 那 你 最 好 只 传递 不 可 
修改 的 数据 结构 〈 如 : 整 型 、 字 符 串 或 者 元 组 ) 或 者 一 个 对 象 的 深 拷贝 。 例 如 : 



























































from queue import Queue 
from threading import Thread 
import copy 


# A thread that produces data 
def producer (out_q): 
while True: 
# Produce some data 


out_q.put(copy.deepcopy(data) ) 


# A thread that consumes data 
def consumer(in_q): 
while True: 
# Get some data 
data = in_q.get() 
# Process the data 


Queue 对 象 提供 一 些 在 当前 上 下 文 很 有 用 的 附加 特性 。 比 如 在 创建 Queue 对 象 时 提供 可 

选 的 size 参数 来 限制 可 以 添加 到 队列 中 的 元 素数 量 。 对 于 “生产 者 "与 “消费 者 "速度 有 差 
异 的 情况 ， 为 队列 中 的 元 素数 量 添加 上 限 是 有 意义 的 。 比 如 ， 一 个 “生产 者 "产生 项 目的 速 
度 比 “消费 者 "“ 消 费 " 的 速度 快 ， 那 么 使 用 固定 大 小 的 队列 就 可 以 在 队列 已 满 的 时 候 阻 塞 队 
列 ， 以 免 未 预期 的 连锁 效应 扩散 整个 程序 造成 死 锁 或 者 程序 运行 失常 。 在 通信 的 线程 之 间 
进行 "流量 控制 "是 一 个 看 起 来 容易 实现 起 来 困难 的 问题 。 如 果 你 发 现 自己 曾经 试图 通过 摆 
弄 队 列 大 小 来 解决 一 个 问题 ， 这 也 许 就 标志 着 你 的 程序 可 能 存在 脆弱 设计 或 者 固有 的 可 伸 
缩 问 题 。 get() 和 put() 方法 都 支持 非 阻 塞 方 式 和 设 定 超 时 ， 例 如 : 












































import queue 
q = queue.Queue() 


try: 
data = q.get(block=False) 
except queue.Empty: 


try: 
q.put(item, block=False) 
except queue.Full: 


try: 
data = q.get(timeout=5.0) 
except queue.Empty: 


这 些 操作 都 可 以 用 来 避免 当 执行 某 些 特定 队列 操作 时 发 生 无 限 阻 塞 的 情况 ， 比 如 ， 一 个 非 
阻塞 的 puto 方法 和 一 个 固定 大 小 的 队列 一 起 使 用 ， 这 样 当 队 列 已 满 时 就 可 以 执行 不 同 
的 代码 。 比 如 输出 一 条 日 志 信息 并 丢弃。 





def producer(q): 


try: 
q.put(item, block=False) 
except queue. Full: 
log.warning('queued item %r discarded!', item) 


如 果 你 试图 让 消费 者 线程 在 执行 像 q.get() 这 样 的 操作 时 ， 超 时 自动 终止 以 便 检查 终止 
标志 ， 你 应 该 使 用 q.get() 的 可 选 参数 timeout ， 如 下 : 


_running = True 


def consumer(q): 
while _running: 
try: 
item = q.get(timeout=5.0) 
# Process item 


except queue.Empty: 
pass 


最 后 ， 有 q.qsize() » q.full() » q.empty() 等 实用 方法 可 以 获取 一 个 队列 的 当前 大 小 
和 状态 。 但 要 注意 ， 这 些 方法 都 不 是 线程 安全 的 。 可 能 你 对 一 个 队列 使 用 empty() 判断 
出 这 个 队列 为 空 ， 但 同时 另外 一 个 线程 可 能 已 经 向 这 个 队列 中 插入 一 个 数据 项 。 所 以 ， 你 
最 好 不 要 在 你 的 代码 中 使 用 这 些 方法 。 





12.4 给 关键 部 分 加 锁 
问题 


你 需要 对 多 线程 程序 中 的 临界 区 加 锁 以 避免 竞争 条 件 。 

















解决 方案 


要 在 多 线程 程序 中 安全 使 用 可 变 对 象 ， 你 需要 使 用 threading 库 中 的 Lock 对 象 ， 就 像 下 
边 这 个 例子 这 样 : 


import threading 
class SharedCounter: 
A counter object that can be shared by multiple threads. 
def __init__(self, initial_value = ð): 
self._value = initial_value 
self. value lock = threading.Lock() 
def incr(self,delta=1): 


Increment the counter with locking 


with self. value lock: 
self._value += delta 


def decr(self,delta=1): 
Decrement the counter with locking 


with self. value lock: 
self._value -= delta 








Lock 对 象 和 with 语句 块 一 起 使 用 可 以 保证 互 斥 执行 ， 就 是 每 次 只 有 一 个 线程 可 以 执行 
with 语句 包含 的 代码 块 。with 语句 会 在 这 个 代码 块 执行 前 自动 获取 锁 ， 在 执行 结束 后 自 
动 释放 锁 。 








讨论 











线程 调度 本 质 上 是 不 确定 的 ， 因 此 ， 在 多 线程 程序 中 错误 地 使 用 锁 机 制 可 能 会 导致 随机 数 
据 损 坏 或 者 其 他 的 蜡 常 行为 ， 我 们 称 之 为 竞争 条 件 。 为 了 避免 竞争 条 件 ， 最 好 只 在 临界 区 
《对 临界 资源 进行 操作 的 那 部 分 代码 ) 使 用 锁 。 在 一 些 " 老 的 " Python 代码 中 ， 显 式 获取 
和 释放 锁 是 很 常见 的 。 下 边 是 一 个 上 一 个 例子 的 变种 : 


























import threading 
class SharedCounter: 
A counter object that can be shared by multiple threads. 


def __init__(self, initial_value = ð): 
self._value = initial_value 
self. value lock = threading.Lock() 


def incr(self,delta=1): 
Increment the counter with locking 


self. _value_lock.acquire() 
self._value += delta 
self. _value_lock.release() 


def decr(self,delta=1): 
Decrement the counter with locking 


self. _value_lock.acquire() 
self._value -= delta 
self. _value_lock.release() 


相 比 于 这 种 显 式 调用 的 方法 ，with 语句 更 加 优雅 ， 也 更 不 容易 出 销 ， 特别 是 程序 员 可 能 
会 忘记 调用 release() 方法 或 者 程序 在 获得 锁 之 后 产生 异常 这 两 种 情况 〈 使 用 with 语句 可 
以 保证 在 这 两 种 情况 下 仍 能 正确 释放 锁 ) 。 为 了 避免 出 现 死 锁 的 情况 ， 使 用 锁 机 制 的 程 
序 应 该 设 定 为 每 个 线程 一 次 只 允许 获取 一 个 锁 。 如 果 不 能 这 样 做 的 话 ， e Ai 
死 锁 避 免 机 制 ， 我 们 将 在 12.5 节 介绍 。 在 threading 库 中 还 提供 了 其 他 的 同步 原 语 ， 上 

如 RLoct 和 semaphore 对 象 。 但 是 根据 以 往 经 验 ，) 这 些 原 语 是 用 于 一 些 特殊 的 情况 ， (i 
果 你 只 是 需要 简单 地 对 可 变 对 象 进 行 锁定 ， 那 就 不 应 该 使 用 它们 。 一 个 RLock (可 重 入 
锁 ) 可 以 被 同一 个 线程 多 次 获取 ， 主 要 用 来 实现 基于 监测 对 象 模式 的 锁定 和 同步 。 在 使 用 
这 种 锁 的 情况 下 ， 当 锁 被 持 有 时 ， 只 有 一 个 线程 可 以 使 用 完整 的 函数 或 者 类 中 的 方法 。 比 
如 ， 你 可 以 实现 一 个 这 样 的 SharedCounter 类 : 






































import threading 
class SharedCounter: 
A counter object that can be shared by multiple threads. 
_lock = threading.RLock() 
def __init__(self, initial_value = ð): 
self._value = initial_value 
def incr(self,delta=1): 


Increment the counter with locking 


with SharedCounter._lock: 
self._value += delta 


def decr(self,delta=1): 
Decrement the counter with locking 


with SharedCounter._lock: 
self.incr(-delta) 





在 上 边 这 个 例子 中 ， 没 有 对 每 一 个 实例 中 的 可 变 对 象 加 锁 ， 取 而 代 之 的 是 一 个 被 所 有 实例 
共享 的 类 级 锁 。 这 个 锁 用 来 同步 类 方法 ， 具 体 来 说 就 是 ， 这 个 锁 可 以 保证 一 次 只 有 一 个 线 
程 可 以 调用 这 个 类 方法 。 不 过 ， 与 一 个 标准 的 锁 不 同 的 是 ， 已 经 持 有 这 个 锁 的 方法 在 调用 
同样 使 用 这 个 锁 的 方法 时 ， 无 需 再 次 获取 锁 。 比 如 decr 方法。 这 种 实现 方式 的 一 个 特点 
是 ， 无 论 这 个 类 有 多 少 个 实例 都 只 用 一 个 锁 。 因 此 在 需要 大 量 使 用 计数 器 的 情况 下 内 存 效 
率 更 高 。 不 过 这 样 做 也 有 缺点 ， 就 是 在 程序 中 使 用 大 量 线程 并 频繁 更 新 计数 器 时 会 有 争 用 
锁 的 问题 。 信号 量 对 象 是 一 个 建立 在 共享 计数 器 基础 上 的 同步 原 语 。 如 果 计 数 器 不 为 0， 
with 语句 将 计数 器 减 1， 线 程 被 允许 执行 。with 语句 执行 结束 后 ， 计 数 器 加 1 。 如 果 计 数 
器 为 0， 线 程 将 被 阻塞 ， 直 到 其 他 线程 结束 将 计数 器 加 1。 尽 管 你 可 以 在 程序 中 像 标准 锁 
一 样 使 用 信号 量 来 做 线程 同步 ， 但 是 这 种 方式 并 不 被 推荐 ， 因 为 使 用 信和 号 量 为 程序 增加 的 
复杂 性 会 影响 程序 性 能 。 相 对 于 简单 地 作为 锁 使 用 ， 信 和 号 量 更 适用 于 那些 需要 在 线程 之 间 
引入 信号 或 者 限制 的 程序 。 比 如 ， 你 需要 限制 一 段 代 码 的 并 发 访问 量 ， 你 就 可 以 像 下 面 这 
样 使 用 信号 量 完成 : 
























































from threading import Semaphore 
import urllib.request 


# At most, five threads allowed to run at once 
_fetch_url_sema = Semaphore(5) 


def fetch_url(url): 
with _fetch_url_sema: 
return urllib.request.urlopen(ur1l) 

















如 果 你 对 线程 同步 原 语 的 底层 理论 和 实现 感 兴趣 ， 可 以 参考 操作 系统 相关 书籍 ， 绝 大 多 数 
都 有 提 及 。 








12.5 防止 死 锁 的 加 锁 机 制 
问题 


You're writing a multithreaded program where threads need to acquire more than one lock 
at a time while avoiding deadlock. 


解决 方案 


In multithreaded programs, a common source of deadlock is due to threads that attempt to 
acquire multiple locks at once. For instance, if a thread acquires the first lock, but then 
blocks trying to acquire the second lock, that thread can potentially block the progress of 
other threads and make the program freeze. One solution to deadlock avoidance is to 
assign each lock in the program a unique number, and to enforce an ordering rule that only 
allows multiple locks to be acquired in ascending order. This is surprisingly easy to 
implement using a context manager as follows: 


import threading from contextlib import contextmanager 


# Thread-local state to stored information on locks already acquired _local = 
threading.local() 


@contextmanager def acquire(*locks): 


# Sort locks by object identifier locks = sorted(locks, key=lambda x: id(x)) 


# Make sure lock order of previously acquired locks is not violated acquired = 
getattr(_local,’acquired’[]) if acquired and max(id(lock) for lock in acquired) >= 
id(locks[O]): 


raise RuntimeError(‘Lock Order Violation’) 


# Acquire all of the locks acquired.extend(locks) _local.acquired = acquired 


try: 
for lock in locks: 
lock.acquire() 


yield 


finally: 
# Release locks in reverse order of acquisition for lock in reversed(locks): 


lock.release() 


del acquired[-len(locks):] 


To use this context manager, you simply allocate lock objects in the normal way, but use the 
acquire() function whenever you want to work with one or more locks. For example: 


import threading x_lock = threading.Lock() y_lock = threading.Lock() 


def thread_1(): 
while True: 
with acquire(x_lock, y_lock): 
print(‘Thread- 1’) 


def thread_2(): 
while True: 
with acquire(y_lock, x_lock): 
print(‘Thread-2’) 


t1 = threading. Thread(target=thread_1) t1.daemon = True t1.start() 
t2 = threading. Thread(target=thread_2) t2.daemon = True t2.start() 


If you run this program, you'll find that it happily runs forever without deadlock—even 
though the acquisition of locks is specified in a different order in each function. The key to 
this recipe lies in the first statement that sorts the locks according to object identifier. By 
sorting the locks, they always get acquired in a consistent order regardless of how the user 


might have provided them to acquire(). The solution uses thread-local storage to solve a 
subtle problem with detecting potential deadlock if multiple acquire() operations are 
nested. For example, suppose you wrote the code like this: 


import threading x_lock = threading.Lock() y_lock = threading.Lock() 


def thread_1(): 


while True: 
with acquire(x_lock): 
with acquire(y_lock): 
print(‘Thread- 1’) 


def thread_2(): 
while True: 
with acquire(y_lock): 
with acquire(x_lock): 
print(‘Thread-2’) 


t1 = threading. Thread(target=thread_1) t1.daemon = True t1.start() 
t2 = threading. Thread(target=thread_2) t2.daemon = True t2.start() 


If you run this version of the program, one of the threads will crash with an exception such 
as this: 


Exception in thread Thread-1: Traceback (most recent call last): 
File “/usr/local/lib/python3.3/threading.py”, line 639, in_bootstrap_inner 


self.run() 


File “/usr/local/lib/python3.3/threading.py”, line 596, in run 
self. target(*self._args, **self._kwargs) 


File “deadlock.py”, line 49, in thread_1 
with acquire(y_lock): 


File “/usr/local/lib/python3.3/contextlib.py”, line 48, in_ enter_ 
return next(self.gen) 


File “deadlock.py”, line 15, in acquire 
raise RuntimeError(“Lock Order Violation’) 


RuntimeError: Lock Order Violation >>> 


This crash is caused by the fact that each thread remembers the locks it has already 
acquired. The acquire() function checks the list of previously acquired locks and en - forces 
the ordering constraint that previously acquired locks must have an object ID that is less 
than the new locks being acquired. 


讨论 


The issue of deadlock is a well-known problem with programs involving threads (as well as a 
common subject in textbooks on operating systems). As arule of thumb, as long as you can 
ensure that threads can hold only one lock at a time, your program will be deadlock free. 
However, once multiple locks are being acquired at the same time, all bets are off. 


Detecting and recovering from deadlock is an extremely tricky problem with few elegant 
solutions. For example, a common deadlock detection and recovery scheme involves the 
use of a watchdog timer. As threads run, they periodically reset the timer, and as long as 
everything is running smoothly, all is well. However, if the program deadlocks, the watchdog 
timer will eventually expire. At that point, the program “recovers” by killing and then 
restarting itself. Deadlock avoidance is a different strategy where locking operations are 
carried out in a manner that simply does not allow the program to enter a deadlocked state. 
The solution in which locks are always acquired in strict order of ascending object ID can be 
mathematically proven to avoid deadlock, although the proof is left as an exercise to the 
reader (the gist of it is that by acquiring locks in a purely increasing order, you can’t get 
cyclic locking dependencies, which are a necessary condition for deadlock to occur). As a 
final example, a classic thread deadlock problem is the so-called “dining philoso - pher’s 
problem.” In this problem, five philosophers sit around a table on which there are five bowls 
of rice and five chopsticks. Each philosopher represents an independent thread and each 
chopstick represents a lock. In the problem, philosophers either sit and think or they eat 
rice. However, in order to eat rice, a philosopher needs two chopsticks. Unfortunately, if all 
of the philosophers reach over and grab the chopstick to their left, they'll all just sit there 
with one stick and eventually starve to death. It’s a gruesome scene. Using the solution, 
here is a simple deadlock free implementation of the dining philos - opher’s problem: 


import threading 
# The philosopher thread def philosopher(left, right): 
while True: 


with acquire(left,right): 
print(threading.currentThread(), ‘eating’) 


# The chopsticks (represented by locks) NSTICKS = 5 chopsticks = [threading.Lock() for n in 
range(NSTICKS)] 


# Create all of the philosophers for n in range(NSTICKS): 


t = threading. Thread(target=philosopher, 
args=(chopsticks[n],chopsticks[(n+1) % NSTICKS])) 


t.start() 


Last, but not least, it should be noted that in order to avoid deadlock, all locking oper - 
ations must be carried out using our acquire() function. If some fragment of code decided to 
acquire a lock directly, then the deadlock avoidance algorithm wouldn't work. 


12.6 保存 线程 的 状态 信息 
问题 


You need to store state that’s specific to the currently executing thread and not visible to 
other threads. 


Sometimes in multithreaded programs, you need to store data that is only specific to the 
currently executing thread. To do this, create a thread-local storage object using 
threading.local(). Attributes stored and read on this object are only visible to the executing 
thread and no others. As an interesting practical example of using thread-local storage, 
consider the LazyCon nection context-manager class that was first defined in Recipe 8.3. 
Here is a slightly modified version that safely works with multiple threads: 


from socket import socket, AF_INET, SOCK_STREAM import threading 


class LazyConnection: 
def _ init_(self, address, family=AF_INET, type=SOCK_STREAM): 
self.address = address self.family = AF_INET self.type = SOCK_STREAM self.local = 
threading.local() 


def _enter_(self): 
if hasattr(self.local, ‘sock’): 
raise RuntimeError(‘Already connected’) 


self.local.sock = socket(self.family, self.type) self.local.sock.connect(self.address) 
return self.local.sock 


def _ exit_(self, exc ty, exc_val, tb): 
self.local.sock.close() del self.local.sock 


In this code, carefully observe the use of the self.local attribute. It is initialized as an instance 
of threading.local(). The other methods then manipulate a socket that’s stored as 
self.local.sock. This is enough to make it possible to safely use an instance of 
LazyConnection in multiple threads. For example: 


from functools import partial def test(conn): 


with conn as s: 
s.send(b’GET /index.html HTTP/1.0rn’) s.send(b’Host: www.python.orgrn’) 


s.send(b’rn’) resp = b“. join(iter(partial(s.recv, 8192), b”)) 


print(‘Got {} bytes’ format(len(resp))) 


‘ I 


if name_==‘_main_’: 
conn = LazyConnection((‘www.python.org’, 80)) 


t1 = threading. Thread(target=test, args=(conn,)) t2 = threading. Thread(target=test, 
args=(conn,)) t1.start() t2.start() t1join() t2,join() 


The reason it works is that each thread actually creates its own dedicated socket con - 
nection (stored as self.local.sock). Thus, when the different threads perform socket 
operations, they don't interfere with one another as they are being performed on dif - 
ferent sockets. 


讨论 


Creating and manipulating thread-specific state is not a problem that often arises in most 
programs. However, when it does, it commonly involves situations where an object being 
used by multiple threads needs to manipulate some kind of dedicated system resource, 
such as a socket or file. You can’t just have a single socket object shared by everyone 
because chaos would ensue if multiple threads ever started reading and writing on it at the 
same time. Thread-local storage fixes this by making such resources only visible in the 
thread where they’re being used. In this recipe, the use of threading.local() makes the 
LazyConnection class support one connection per thread, as opposed to one connection for 
the entire process. It’s a subtle but interesting distinction. Under the covers, an instance of 
threading.local() maintains a separate instance dictionary for each thread. All of the usual 
instance operations of getting, setting, and deleting values just manipulate the per-thread 
dictionary. The fact that each thread uses a separate dictionary is what provides the 
isolation of data. 


12.7 创建 一 个 线程 池 
问题 


You want to create a pool of worker threads for serving clients or performing other kinds of 
work. 


The concurrent.futures library has a ThreadPoolExecutor class that can be used for this 
purpose. Here is an example of a simple TCP server that uses a thread-pool to serve clients: 


from socket import AF_INET, SOCK_STREAM, socket from concurrent.futures import 
ThreadPoolExecutor 


def echo_client(sock, client_addr): 
” Handle a client connection ” print(‘Got connection from’, client_addr) while True: 


msg = sock.recv(65536) if not msg: 


break 
sock.sendall(msg) 


print(‘Client closed connection’) sock.close() 


def echo_server(addr): 
pool = ThreadPoolExecutor(128) sock = socket(AF_INET, SOCK_STREAM) 


sock.bind(addr) sock.listen(5) while True: 
client_sock, client_addr = sock.accept() pool.submit(echo_client, client_sock, 
client_addr) 


echo_server((’,15000)) 


If you want to manually create your own thread pool, it’s usually easy enough to do it using 
a Queue. Here is a slightly different, but manual implementation of the same code: 


from socket import socket, AF_INET, SOCK_STREAM from threading import Thread from 
queue import Queue 


def echo_client(q): 
” Handle a client connection ” sock, client_addr = q.get() print(‘Got connection from’, 


client_addr) while True: 


msg = sock.recv(65536) if not msg: 


break 


sock.sendall(msg) 


print(‘Client closed connection’) 
sock.close() 


def echo_server(addr, nworkers): 
# Launch the client workers q = Queue() for n in range(nworkers): 


t = Thread(target=echo_client, args=(q,)) t.daemon = True t.start() 


# Run the server sock = socket(AF_INET, SOCK_STREAM) sock.bind(addr) sock.listen(5) 
while True: 


client_sock, client_addr = sock.accept() q.put((client_sock, client_addr)) 
echo_server((’,15000), 128) 


One advantage of using ThreadPoolExecutor over a manual implementation is that it 
makes it easier for the submitter to receive results from the called function. For example, 
you could write code like this: 


from concurrent.futures import ThreadPoolExecutor import urllib.request 


def fetch_ur|(url): 
u = urllib.request.urlopen(url) data = u.read() return data 


pool = ThreadPoolExecutor(10) # Submit work to the pool a = pool.submit(fetch_url, 
‘http://www.python.org’) b = pool.submit(fetch_url, ‘http://www.pypy.org’) 


# Get the results back x = a.result() y = b.result() 
The result objects in the example handle all of the blocking and coordination needed to get 


data back from the worker thread. Specifically, the operation a.result() blocks until the 
corresponding function has been executed by the pool and returned a value. 


讨论 


Generally, you should avoid writing programs that allow unlimited growth in the num - ber 
of threads. For example, take a look at the following server: 


from threading import Thread from socket import socket, AF_INET, SOCK_STREAM 


def echo_client(sock, client_addr): 
” Handle a client connection ” print(‘Got connection from’, client_addr) while True: 


msg = sock.recv(65536) if not msg: 


break 


sock.sendall(msg) 


print(‘Client closed connection’) sock.close() 


def echo_server(addr, nworkers): 
# Run the server sock = socket(AF_INET, SOCK_STREAM) sock.bind(addr) sock.listen(5) 


while True: 


client_sock, client_addr = sock.accept() t = Thread(target=echo_client, args= 
(client_sock, client_addr)) t.daemon = True t.start() 


echo_server((’,15000)) 


Although this works, it doesn’t prevent some asynchronous hipster from launching an 
attack on the server that makes it create so many threads that your program runs out of 
resources and crashes (thus further demonstrating the “evils” of using threads). By using a 
pre-initialized thread pool, you can carefully put an upper limit on the amount of supported 
concurrency. You might be concerned with the effect of creating a large number of threads. 
However, modern systems should have no trouble creating pools of a few thousand 
threads. Moreover, having a thousand threads just sitting around waiting for work isn’t 
going to have much, if any, impact on the performance of other code (a sleeping thread does 
just that—nothing at all). Of course, if all of those threads wake up at the same time and 
start hammering on the CPU, that’s a different story—especially in light of the Global 
Interpreter Lock (GIL). Generally, you only want to use thread pools for MO-bound 
processing. One possible concern with creating large thread pools might be memory use. 
For ex - ample, if you create 2,000 threads on OS X, the system shows the Python process 
using up more than 9 GB of virtual memory. However, this is actually somewhat misleading. 
When creating a thread, the operating system reserves a region of virtual memory to hold 
the thread’s execution stack (often as large as 8 MB). Only a small fragment of this memory 
is actually mapped to real memory, though. Thus, if you look a bit closer, you might find the 
Python process is using far less real memory (e.g., for 2,000 threads, only 


70 MB of real memory is used, not 9 GB). If the size of the virtual memory is a concern, you 
can dial it down using the threading.stack_size() function. For example: 


import threading threading.stack_size(65536) 


If you add this call and repeat the experiment of creating 2,000 threads, you'll find that the 
Python process is now only using about 210 MB of virtual memory, although the amount of 
real memory in use remains about the same. Note that the thread stack size must be at least 
32,768 bytes, and is usually restricted to be a multiple of the system memory page size 
(4096, 8192, etc.). 


12.8 简单 的 并 行 编程 
问题 


You have a program that performs a lot of CPU-intensive work, and you want to make it run 
faster by having it take advantage of multiple CPUs. 


The concurrent.futures library provides a ProcessPoolExecutor class that can be used to 
execute computationally intensive functions in a separately running instance of the Python 
interpreter. However, in order to use it, you first need to have some com - putationally 
intensive work. Let’s illustrate with a simple yet practical example. Suppose you have an 
entire directory of gzip-compressed Apache web server logs: 


logs/ 
20120701.log.gz 20120702.log.gz 20120703.log.gz 20120704.log.gz 20120705.log.gz 
20120706.log.gz... 


Further suppose each log file contains lines like this: 


124.115.6.12 - - [10/Jul/2012:00:18:50 -0500] “GET /robots.txt ...” 200 71 210.212.209.67 - 
- [10/Jul/2012:00:18:51 -0500] “GET /ply/...” 200 11875 210.212.209.67 - - 
[10/Jul/2012:00:18:51 -0500] “GET /favicon.ico ...” 404 369 61.135.216.105 - - 
[10/Jul/2012:00:20:04 -0500] “GET /blog/atom.xml ...” 304 - ... 


Here is asimple script that takes this data and identifies all hosts that have accessed the 
robots.txt file: 


# findrobots.py 
import gzip import io import glob 


def find_robots(filename): 
” Find all of the hosts that access robots.txt in a single log file 


Oo) 


robots = set() with 
gzip.open(filename) as f: 


for line in io. TextlOWrapper(f,encoding=’ascii’): 
fields = line.split() if fields[6] == ‘/robots.txt’: 


robots.add(fields[0]) 


return robots 


def find_all_robots(logdir): 
” Find all hosts across and entire sequence of files ” files = glob.glob(logdir+’/*.log.gz’) 
all_robots = set() for robots in map(find_robots, files): 


all_robots.update(robots) 


return all_robots 
if name_==‘_main_’: 
robots = find_all_robots(‘logs’) for ipaddr in robots: 


print(ipaddr) 
The preceding program is written in the commonly used map-reduce style. The function 
find_robots() is mapped across a collection of filenames and the results are combined into a 
single result (the all_robots set in the find_all_robots() function). Now, suppose you want to 
modify this program to use multiple CPUs. It turns out to be easy—simply replace the map() 


operation with a similar operation carried out on a process pool from the 
concurrent.futures library. Here is a slightly modified version of the code: 


# findrobots.py 


import gzip import io import glob from concurrent import futures 


def find_robots(filename): 
” Find all of the hosts that access robots.txt in a single log file 


” robots = set() with gzip.open(filename) as f: 


for line in io. TextlOWrapper(f,encoding=’ascii’): 
fields = line.split() if fields[6] == ‘/robots.txt’: 


robots.add(fields[0O]) 


return robots 


def find_all_robots(logdir): 
” Find all hosts across and entire sequence of files ” files = glob.glob(logdir+’/*.log.gz’) 
all_robots = set() with futures.ProcessPoolExecutor() as pool: 


for robots in pool.map(find_robots, files): 
all_robots.update(robots) 


return all_robots 


’ 


if name_==‘_main_’: 
robots = find_all_robots(‘logs’) for ipaddr in robots: 


print(ipaddr) 
With this modification, the script produces the same result but runs about 3.5 times faster 


on our quad-core machine. The actual performance will vary according to the number of 
CPUs available on your machine. 


讨论 


Typical usage of a ProcessPoolExecutor is as follows: from concurrent.futures import 
ProcessPoolExecutor 


with ProcessPoolExecutor() as pool: 
.. do work in parallel using pool ... 


Under the covers, a ProcessPoolExecutor creates N independent running Python in - 
terpreters where N is the number of available CPUs detected on the system. You can 
change the number of processes created by supplying an optional argument to Proces 
sPoolExecutor(N). The pool runs until the last statement in the with block is executed, at 
which point the process pool is shut down. However, the program will wait until all 
submitted work has been processed. Work to be submitted to a pool must be defined ina 
function. There are two methods for submission. If you are are trying to parallelize a list 
comprehension or a map() operation, you use pool.map(): 
# A function that performs a lot of work def work(x): 

.. return result 
# Nonparallel code results = map(work, data) 
# Parallel implementation with ProcessPoolExecutor() as pool: 

results = pool.map(work, data) 
Alternatively, you can manually submit single tasks using the pool.submit() method: 


# Some function def work(x): 


... return result 


with ProcessPoolExecutor() as pool: 
.. # Example of submitting work to the pool future_result = pool.submit(work, arg) 


# Obtaining the result (blocks until done) r = future_result.result() ... 
If you manually submit a job, the result is an instance of Future. To obtain the actual result, 
you Call its result() method. This blocks until the result is computed and re - turned by the 


pool. Instead of blocking, you can also arrange to have a callback function triggered upon 
completion instead. For example: 


def when_done(r): 
print(‘Got:’, r.result()) 


with ProcessPoolExecutor() as pool: 
future_result = pool.submit(work, arg) future_result.add_done_callback(when_done) 


The user-supplied callback function receives an instance of Future that must be used to 
obtain the actual result (i.e., by calling its result() method). Although process pools can be 
easy to use, there are a number of important consider - ations to be made in designing 
larger programs. In no particular order: 

e This technique for parallelization only works well for problems that can be trivially 
decomposed into independent parts. 

e Work must be submitted in the form of simple functions. Parallel execution of 
instance methods, closures, or other kinds of constructs are not supported. 


e Function arguments and return values must be compatible with pickle. Work is 


carried out in a separate interpreter using interprocess communication. Thus, data 
exchanged between interpreters has to be serialized. 


e Functions submitted for work should not maintain persistent state or have side 
effects. With the exception of simple things such as logging, you don't really have any 
control over the behavior of child processes once started. Thus, to preserve your sanity, it is 
probably best to keep things simple and carry out work in pure-functions that don’t alter 


their environment. 


e Process pools are created by calling the fork() system call on Unix. This makes a 


clone of the Python interpreter, including all of the program state at the time of the fork. On 
Windows, an independent copy of the interpreter that does not clone state is launched. The 
actual forking process does not occur until the first pool.map() or pool.submit() method is 
called. 


e Great care should be made when combining process pools and programs that use 


threads. In particular, you should probably create and launch process pools prior to the 
creation of any threads (e.g., create the pool in the main thread at program startup). 


12.9 Python 的 全 局 锁 问 题 
问题 


Youveheard about the Global Interpreter Lock (GIL), and are worried that it might be 
affecting the performance of your multithreaded program. 


Although Python fully supports thread programming, parts of the C implementation of the 
interpreter are not entirely thread safe to a level of allowing fully concurrent execution. In 
fact, the interpreter is protected by a so-called Global Interpreter Lock (GIL) that only 
allows one Python thread to execute at any given time. The most no - ticeable effect of the 
GILis that multithreaded Python programs are not able to fully take advantage of multiple 
CPU cores (e.g., a computationally intensive application using more than one thread only 
runs on a single CPU). 


Before discussing common GIL workarounds, it is important to emphasize that the GIL 
tends to only affect programs that are heavily CPU bound (i.e., dominated by compu - 
tation). If your program is mostly doing I/O, such as network communication, threads are 
often a sensible choice because they're mostly going to spend their time sitting around 
waiting. In fact, you can create thousands of Python threads with barely acon - cern. 
Modern operating systems have no trouble running with that many threads, so it’s simply 
not something you should worry much about. For CPU-bound programs, you really need to 
study the nature of the computation being performed. For instance, careful choice of the 
underlying algorithm may produce a far greater speedup than trying to parallelize an 
unoptimal algorithm with threads. Simi - larly, given that Python is interpreted, you might 
get a far greater speedup simply by moving performance-critical code into a C extension 
module. Extensions such as NumPy are also highly effective at speeding up certain kinds of 
calculations involving array data. Last, but not least, you might investigate alternative 
implementations, such as PyPy, which features optimizations such as a JIT compiler 


(although, as of this writing, it does not yet support Python 3). It’s also worth noting that 
threads are not necessarily used exclusively for performance. A CPU-bound program might 
be using threads to manage a graphical user interface, anetwork connection, or provide 
some other kind of service. In this case, the GIL can actually present more of a problem, 
since code that holds it for an excessively long period will cause annoying stalls in the non- 
CPU-bound threads. In fact, a poorly written C extension can actually make this problem 
worse, even though the computation part of the code might run faster than before. Having 
said all of this, there are two common strategies for working around the limi - tations of the 
GIL. First, if you are working entirely in Python, you can use the multi processing module to 
create a process pool and use it like a co-processor. For example, suppose you have the 
following thread code: 


# Performs a large calculation (CPU bound) def some_work(args): 


... return result 


# A thread that calls the above function def some_thread(): 


while True: 
.r= some_work(args) .… 


Here’s how you would modify the code to use a pool: 


# Processing pool (see below for initiazation) pool = None 


# Performs a large calculation (CPU bound) def some_work(args): 


... return result 


# A thread that calls the above function def some_thread(): 


while True: 
.. r = pool.apply(some_work, (args)) ... 
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# Initiaze the pool if name_ ==‘_main_’: 


import multiprocessing pool = multiprocessing.Pool() 


This example with a pool works around the GIL using a neat trick. Whenever a thread wants 
to perform CPU-intensive work, it hands the work to the pool. The pool, in turn, hands the 
work to a separate Python interpreter running in a different process. While the thread is 
waiting for the result, it releases the GIL. Moreover, because the calculation is being 
performed in a separate interpreter, it’s no longer bound by the restrictions of the GIL.Ona 


multicore system, you'll find that this technique easily allows you to take advantage of all 
the CPUs. The second strategy for working around the GIL is to focus on C extension 
program - ming. The general idea is to move computationally intensive tasks to C, 
independent of Python, and have the C code release the GIL while it’s working. This is done 
by inserting special macros into the C code like this: 


#include “Python.h’ ... 


Py Object *pyfunc(PyObject *self, PyObject *args) { 
.. Py_BEGIN_ALLOW_THREADS // Threaded C code... Py. END_ALLOW_THREADS ... 


If you are using other tools to access C, such as the ctypes library or Cython, you may not 
need to do anything. For example, ctypes releases the GIL when calling into C by default. 


讨论 


Many programmers, when faced with thread performance problems, are quick to blame the 
GIL for all of their ills. However, doing so is shortsighted and naive. Just as a real- 


world example, mysterious “stalls” in a multithreaded network program might be caused by 
something entirely different (e.g., a stalled DNS lookup) rather than anything related to the 
GIL. The bottom line is that you really need to study your code to know if the GIL is an issue 
or not. Again, realize that the GIL is mostly concerned with CPU-bound processing, not I/O. 
If you are going to use a process pool as a workaround, be aware that doing so involves data 
serialization and communication with a different Python interpreter. For this to work, the 
operation to be performed needs to be contained within a Python function defined by the 
def statement (i.e., no lambdas, closures, callable instances, etc.), and the function 
arguments and return value must be compatible with pickle. Also, the amount of work to be 
performed must be sufficiently large to make up for the extra communi - cation overhead. 
Another subtle aspect of pools is that mixing threads and process pools together can be a 
good way to make your head explode. If you are going to use both of these features 
together, it is often best to create the process pool as a singleton at program startup, prior 
to the creation of any threads. Threads will then use the same process pool for all of their 
computationally intensive work. For C extensions, the most important feature is 
maintaining isolation from the Python interpreter process. That is, if you’re going to offload 
work from Python to C, you need to make sure the C code operates independently of 
Python. This means using no Python data structures and making no calls to Python’s C API. 
Another consideration is that you want to make sure your C extension does enough work 
to make it all worthwhile. That is, it’s much better if the extension can perform millions of 
calculations as opposed to just a few small calculations. Needless to say, these solutions to 


working around the GIL don’t apply to all possible problems. For instance, certain kinds of 
applications don’t work well if separated into multiple processes, nor may you want to code 
parts in C. For these kinds of applications, you may have to come up with your own solution 
(e.g., multiple processes accessing shared memory regions, multiple interpreters running in 
the same process, etc.). Al - ternatively, you might look at some other implementations of 
the interpreter, such as PyPy. See Recipes 15.7 and 15.10 for additional information on 
releasing the GIL in C extensions. 


12.10 定义 一 个 Actor 任 务 
问题 


You'd like to define tasks with behavior similar to “actors” in the so-called “actor model.” 


The “actor model” is one of the oldest and most simple approaches to concurrency and 
distributed computing. In fact, its underlying simplicity is part of its appeal. In a nutshell, an 
actor is a concurrently executing task that simply acts upon messages sent to it. In response 
to these messages, it may decide to send further messages to other actors. Communication 
with actors is one way and asynchronous. Thus, the sender of a message does not know 
when a message actually gets delivered, nor does it receive a response or acknowledgment 
that the message has been processed. Actors are straightforward to define using a 
combination of a thread and a queue. For example: 


from queue import Queue from threading import Thread, Event 
# Sentinel used for shutdown class ActorExit(Exception): 
pass 


class Actor: 
def _init_(self): 
self. mailbox = Queue() 


def send(self, msg): 
” Send a message to the actor ” self. mailbox.put(msg) 


def recv(self): 
” Receive an incoming message ” msg = self._mailbox.get() if msg is ActorExit: 


raise ActorExit() 


return msg 


def close(self): 
” Close the actor, thus shutting it down” self.send(ActorExit) 


def start(self): 
” Start concurrent execution ”self. terminated = Event() t = 


Thread(target=self._ bootstrap) 
t.daemon = True t.start() 


def _bootstrap(self): 
try: 
self.run() 


except ActorExit: 
pass 


finally: 
self. terminated.set() 


def join(self): 
self. terminated.wait() 


def run(self): 
” Run method to be implemented by the user ” while True: 


msg = self.recv() 


# Sample ActorTask class PrintActor(Actor): 


def run(self): 
while True: 
msg = self.recv() print(‘Got:’, msg) 


# Sample use p = PrintActor() p.start() p.send(‘Hello’) p.send(‘World’) p.close() pjoin() 


In this example, Actor instances are things that you simply send a message to using their 
send() method. Under the covers, this places the message on a queue and hands it off to an 
internal thread that runs to process the received messages. The close() method is 
programmed to shut down the actor by placing a special sentinel value (ActorExit) on the 
queue. Users define new actors by inheriting from Actor and re - defining the run() method 
to implement their custom processing. The usage of the ActorExit exception is such that 
user-defined code can be programmed to catch the termination request and handle it if 
appropriate (the exception is raised by the get() method and propagated). If you relax the 
requirement of concurrent and asynchronous message delivery, actor- like objects can also 
be minimally defined by generators. For example: 


def print_actor(): 
while True: 


try: 
msg = yield # Get a message print(‘Got:’, msg) 


except Generator Exit: 
print(‘Actor terminating’) 


# Sample use p = print_actor() next(p) # Advance to the yield (ready to receive) 
p.send(‘Hello’) p.send(‘World’) p.close() 


讨论 


Part of the appeal of actors is their underlying simplicity. In practice, there is just one core 
operation, send(). Plus, the general concept of a “message” in actor-based systems is 
something that can be expanded in many different directions. For example, you could pass 
tagged messages in the form of tuples and have actors take different courses of action like 
this: 


class TaggedActor(Actor): 
def run(self): 
while True: 
tag, “payload = self.recv() getattr(self,’do_‘+tag)(*payload) 


# Methods correponding to different message tags def do_A(self, x): 


print(‘Running A’, x) 


def do_B(self, x, y): 
print(‘Running B’, x, y) 


# Example a = TaggedActor() a.start() a.send((‘A’, 1)) # Invokes do_A(1) a.send((‘B’, 2, 3)) # 
Invokes do_B(2,3) 


As another example, here is a variation of an actor that allows arbitrary functions to be 
executed in a worker and results to be communicated back using a special Result object: 


from threading import Event class Result: 


def _init_(self): 
self. evt = Event() self. result = None 


def set_result(self, value): 
self. result = value 


self._evt.set() 


def result(self): 
self. evt.wait() return self. result 


class Worker(Actor): 
def submit(self, func, *args, **kwargs): 
r= Result() self.send((func, args, kwargs, r)) return r 


def run(self): 
while True: 
func, args, kwargs, r = self.recv() r.set_result(func(*args, **kwargs)) 


# Example use worker = Worker() worker.start() r = worker.submit(pow, 2, 3) 
print(r.result()) 


Last, but not least, the concept of “sending” a task a message is something that can be 
scaled up into systems involving multiple processes or even large distributed systems. For 
example, the send() method of an actor-like object could be programmed to trans - mit 
data on a socket connection or deliver it via some kind of messaging infrastructure (e.g., 
AMQP, ZMQ, etc.). 


12.11 实现 消息 发 布 /订阅 模型 
问题 


You have a program based on communicating threads and want them to implement 
publish/subscribe messaging. 


To implement publish/subscribe messaging, you typically introduce a separate “ex - 
change” or “gateway” object that acts as an intermediary for all messages. That is, instead of 
directly sending a message from one task to another, a message is sent to the exchange and 
it delivers it to one or more attached tasks. Here is one example of a very simple exchange 
implementation: 


from collections import defaultdict 


class Exchange: 
def _init_(self): 
self. subscribers = set() 


def attach(self, task): 
self. subscribers.add(task) 


def detach(self, task): 
self. subscribers.remove(task) 


def send(self, msg): 
for subscriber in self. subscribers: 
subscriber.send(msg) 


# Dictionary of all created exchanges exchanges = defaultdict(Exchange) 

# Return the Exchange instance associated with a given name def get_exchange(name): 
return _exchanges[name] 

An exchange Is really nothing more than an object that keeps a set of active subscribers and 

provides methods for attaching, detaching, and sending messages. Each exchange is 

identified by a name, and the get_exchange() function simply returns the Ex change instance 

associated with a given name. Here is a simple example that shows how to use an exchange: 


# Example of a task. Any object with a send() method 


class Task: 
.. def send(self, msg): 


task_a = Task() task_b = Task() 

# Example of getting an exchange exc = get_exchange(‘name’) 

# Examples of subscribing tasks to it exc.attach(task_a) exc.attach(task_b) 

# Example of sending messages exc.send(‘msg1’) exc.send(‘msg2’) 

# Example of unsubscribing exc.detach(task_a) exc.detach(task_b) 

Although there are many different variations on this theme, the overall idea is the same. 


Messages will be delivered to an exchange and the exchange will deliver them to attached 
subscribers. 


讨论 


The concept oftasks orthreads sending messagesto one another (often via queues) is easy 
to implement and quite popular. However, the benefits of using a public/subscribe 
(pub/sub) model instead are often overlooked. First, the use of an exchange can simplify 
much of the plumbing involved in setting up communicating threads. Instead of trying to 
wire threads together across multiple pro - gram modules, you only worry about 
connecting them to a known exchange. In some sense, this is similar to how the logging 
library works. In practice, it can make it easier to decouple various tasks in the program. 
Second, the ability of the exchange to broadcast messages to multiple subscribers opens up 
new communication patterns. For example, you could implement systems with re - 
dundant tasks, broadcasting, or fan-out. You could also build debugging and diagnostic 
tools that attach themselves to exchanges as ordinary subscribers. For example, here is a 
simple diagnostic class that would display sent messages: 


class DisplayMessages: 
def _init_(self): 
self.count = 0 


def send(self, msg): 
self.count += 1 print(‘msg[{}]: {!r} format(self.count, msg)) 


exc = get_exchange(‘name’) d = DisplayMessages() exc.attach(d) 


Last, but not least, a notable aspect of the implementation is that it works with a variety of 
task-like objects. For example, the receivers of a message could be actors (as described in 
Recipe 12.10), coroutines, network connections, or just about anything that imple - ments 
a proper send() method. One potentially problematic aspect of an exchange concerns the 
proper attachment and detachment of subscribers. In order to properly manage resources, 
every subscriber that attaches must eventually detach. This leads to a programming model 
similar to this: 


exc = get_exchange(‘name’) exc.attach(some_task) try: 


finally: 
exc.detach(some_task) 


In some sense, this is similar to the usage of files, locks, and similar objects. Experience has 
shown that it is quite easy to forget the final detach() step. To simplify this, you might 
consider the use of the context-management protocol. For example, adding a subscribe() 
method to the exchange like this: 


from contextlib import contextmanager from collections import defaultdict 


class Exchange: 
def _init_(self): 
self. subscribers = set() 


def attach(self, task): 
self. subscribers.add(task) 


def detach(self, task): 
self. subscribers.remove(task) 


@contextmanager def subscribe(self, *tasks): 


for task in tasks: 
self.attach(task) 


try: 
yield 


finally: 
for task in tasks: 
self.detach(task) 


def send(self, msg): 
for subscriber in self. subscribers: 
subscriber.send(msg) 


# Dictionary of all created exchanges _exchanges = defaultdict(Exchange) 
# Return the Exchange instance associated with a given name def get_exchange(name): 
return _exchanges[name] 


# Example of using the subscribe() method exc = get_exchange(‘name’) with 
exc.subscribe(task_a, task_b): 


... exc.send(‘msg1’) exc.send(‘msg2’) ... 
# task_a and task_b detached here 


Finally, it should be noted that there are numerous possible extensions to the exchange 
idea. For example, exchanges could implement an entire collection of message channels 


or apply pattern matching rules to exchange names. Exchanges can also be extended into 
distributed computing applications (e.g., routing messages to tasks on different machines, 
etc.). 


12.12 使 用 生成 器 代 蔡 线程 


问题 


Youwantto implement concurrency using generators (coroutines) as an alternative to 
system threads. This is sometimes known as user-level threading or green threading. 


To implement your own concurrency using generators, you first need a fundamental insight 
concerning generator functions and the yield statement. Specifically, the fun - damental 
behavior of yield is that it causes a generator to suspend its execution. By suspending 
execution, it is possible to write a scheduler that treats generators as a kind of “task” and 
alternates their execution using a kind of cooperative task switching. To illustrate this idea, 
consider the following two generator functions using a simple yield: 


# Two simple generator functions def countdown(n): 


while n > 0: 
print(‘T-minus’, n) yield n -= 1 


print(‘Blastoff!’) 
def countup(n): 
xX =Owhilex <n: 


print(‘Counting up’, x) yield x += 1 


These functions probably look a bit funny using yield all by itself. However, consider the 
following code that implements a simple task scheduler: 


from collections import deque 


class TaskScheduler: 
def _init_(self): 
self._task_queue = deque() 


def new_task(self, task): 
” Admit a newly started task to the scheduler 


” self. task_queue.append(task) 


def run(self): 
” Run until there are no more tasks 


oOo 


while self. task_queue: 


task = self._task_queue.popleft() try: 


# Run until the next yield statement next(task) self._task_queue.append(task) 


except Stoplteration: 
# Generator is no longer executing pass 


# Example use sched = TaskScheduler() sched.new_task(countdown(10)) 
sched.new_task(countdown(5)) sched.new_task(countup(15)) sched.run() 


In this code, the TaskScheduler class runs a collection of generators in a round-robin 
manner—each one running until they reach a yield statement. For the sample, the output 
will be as follows: 


T-minus 10 T-minus 5 Counting up O T-minus 9 T-minus 4 Counting up 1 T-minus 8 T- 
minus 3 Counting up 2 T-minus 7 T-minus 2... 


At this point, you've essentially implemented the tiny core of an “operating system” if you 
will. Generator functions are the tasks and the yield statement is how tasks signal that they 
want to suspend. The scheduler simply cycles over the tasks until none are left executing. In 
practice, you probably wouldn’t use generators to implement concurrency for some - thing 
as simple as shown. Instead, you might use generators to replace the use of threads when 
implementing actors (see Recipe 12.10) or network servers. 


The following code illustrates the use of generators to implement a thread-free version of 
actors: 


from collections import deque 


class ActorScheduler: 
def _init_(self): 
self._actors = { }# Mapping of names to actors self. msg queue = deque() # Message 
queue 


def new_actor(self, name, actor): 
” Admit a newly started actor to the scheduler and give it a name ” 
self. msg_queue.append((actor,None)) self._actors[name] = actor 


def send(self, name, msg): 
” Send a message to a named actor” actor = self._actors.get(name) if actor: 


self..msg_queue.append((actor,msg)) 


def run(self): 
” Run as long as there are pending messages. ” while self. msg queue: 


actor, msg = self. msg_queue.popleft() try: 


actor.send(msg) 


except Stoplteration: 
pass 


《 ) 。 


# Example use if _name_ ==‘_ main 


def printer(): 
while True: 
msg = yield print(‘Got:’, msg) 


def counter(sched): 
while True: 
# Receive the current count n = yield if n == 0: 


break 
# Send to the printer task sched.send(‘printer’, n) # Send the next count to the 
counter task (recursive) 
sched.send(‘counter’, n-1) 


sched = ActorScheduler() # Create the initial actors sched.new_actor(‘printer’, printer()) 
sched.new_actor(‘counter’, counter(sched)) 


# Send an initial message to the counter to initiate sched.send(‘counter’, 10000) 
sched.run() 


The execution of this code might take a bit of study, but the key is the queue of pending 
messages. Essentially, the scheduler runs as long as there are messages to deliver. A 
remarkable feature is that the counter generator sends messages to itself and ends up ina 
recursive cycle not bound by Python’s recursion limit. Here is an advanced example 
showing the use of generators to implement a concurrent network application: 


from collections import deque from select import select 
# This class represents a generic yield event in the scheduler class YieldEvent: 


def handle_yield(self, sched, task): 
pass 


def handle_resume(self, sched, task): 
pass 


# Task Scheduler class Scheduler: 


def _init_(self): 
self. numtasks = 0 # Total num of tasks self. ready = deque() # Tasks ready to run 
self._read_waiting = {} # Tasks waiting to read self. write_waiting = {} # Tasks waiting 
to write 


# Poll for I/O events and restart waiting tasks def _iopoll(self): 
rset,wset,eset = select(self._read_waiting, 


self. write_waiting,[]) 


for r in rset: 
evt, task = self._read_waiting.pop(r) evt.handle_resume(self, task) 


for w in wset: 


evt, task = self. write_waiting.pop(w) evt.handle_resume(self, task) 


def new(self,task): 


on 


Add a newly started task to the scheduler ™ 
self._ready.append((task, None)) self. numtasks += 1 


def add_ready(self, task, msg=None): 


n” 


Append an already started task to the ready queue. msg is what to send into the 
task when it resumes. ” self._ready.append((task, msg)) 


# Add a task to the reading set def _read_wait(self, fileno, evt, task): 


self._read_waiting[fileno] = (evt, task) 


# Add a task to the write set def _write_wait(self, fileno, evt, task): 


self._write_waiting|fileno] = (evt, task) 


def run(self): 
” Run the task scheduler until there are no tasks 


{7} 


while self. numtasks: 


if not self._ready: 
self._iopoll() 


task, msg = self._ready.popleft() try: 


# Run the coroutine to the next yield r = task.send(msg) if isinstance(r, 
YieldEvent): 


r.handle_yield(self, task) 


else: 
raise RuntimeError(‘unrecognized yield event’) 


except Stoplteration: 
self. numtasks -= 1 


# Example implementation of coroutine-based socket I/O class ReadSocket(YieldEvent): 


def _ init_(self, sock, nbytes): 
self.sock = sock self.nbytes = nbytes 


def handle_yield(self, sched, task): 
sched._read_wait(self.sock.fileno(), self, task) 


def handle_resume(self, sched, task): 
data = self.sock.recv(self.nbytes) sched.add_ready(task, data) 


class WriteSocket(YieldEvent): 
def _init_(self, sock, data): 
self.sock = sock self.data = data 


def handle_yield(self, sched, task): 


sched. _write_wait(self.sock.fileno(), self, task) 


def handle_resume(self, sched, task): 
nsent = self.sock.send(self.data) sched.add_ready(task, nsent) 


class AcceptSocket(YieldEvent): 
def _init_(self, sock): 
self.sock = sock 


def handle_yield(self, sched, task): 
sched._read_wait(self.sock.fileno(), self, task) 


def handle_resume(self, sched, task): 
r =self.sock.accept() sched.add_ready(task, r) 


# Wrapper around a socket object for use with yield class Socket(object): 


def _init_(self, sock): 
self. sock = sock 


def recv(self, maxbytes): 
return ReadSocket(self._sock, maxbytes) 


def send(self, data): 
return WriteSocket(self.. sock, data) 


def accept(self): 
return AcceptSocket(self._ sock) 


def _ getattr_(self, name): 


return getattr(self. sock, name) 


if name_==‘_main_’: 
from socket import socket, AF_INET, SOCK_STREAM import time 


# Example of a function involving generators. This should # be called using line = yield 
from readline(sock) def readline(sock): 


chars = [] while True: 
c= yield sock.recv(1) if not c: 


break 


chars.append(c) if c == b’n’: 


break 


return b”join(chars) 


# Echo server using generators class EchoServer: 


def _init_(self,addr,sched): 
self.sched = sched sched.new(self.server_loop(addr)) 


def server_loop(self,addr): 
s = Socket(socket(AF_INET,SOCK_STREAM)) 


s.bind(addr) s.listen(5) while True: 


ca = yield s.accept() print(‘Got connection from‘, a) 
self.sched.new(self.client_handler(Socket(c))) 


def client_handler(self,client): 
while True: 
line = yield from readline(client) if not line: 


break 


line = b’GOT:’ + line while line: 
nsent = yield client.send(line) line = line[nsent:] 
client.close() print(‘Client closed’) 
sched = Scheduler() EchoServer((’,16000),sched) sched.run() 
This code will undoubtedly require a certain amount of careful study. However, it is 
essentially implementing a small operating system. There is a queue of tasks ready to run 


and there are waiting areas for tasks sleeping for I/O. Much of the scheduler involves 
moving tasks between the ready queue and the I/O waiting area. 


讨论 


When building generator-based concurrency frameworks,itis most common to work with 
the more general form of yield: 


def some_generator(): 
.. result = yield data... 


Functions that use yield in this manner are more generally referred to as “coroutines.” 
Within a scheduler, the yield statement gets handled in a loop as follows: 


f = some_generator() 


# Initial result. Is None to start since nothing has been computed result = None while True: 


try: 
data = f.send(result) result = ...do some calculation ... 


except Stoplteration: 
break 


The logic concerning the result is a bit convoluted. However, the value passed to send() 
defines what gets returned when the yield statement wakes back up. So, if a yield is going to 
return aresult in response to data that was previously yielded, it gets returned on the next 
send() operation. If a generator function has just started, sending in a value of None simply 
makes it advance to the first yield statement. In addition to sending in values, it is also 
possible to execute a close() method on a generator. This causes a silent GeneratorExit 
exception to be raised at the yield state - ment, which stops execution. If desired, a 
generator can catch this exception and per - form cleanup actions. It’s also possible to use 
the throw() method of a generator to raise an arbitrary execution at the yield statement. A 
task scheduler might use this to com - municate errors into running generators. The yield 
from statement used in the last example is used to implement coroutines that serve as 
subroutines or procedures to be called from other generators. Essentially, control 
transparently transfers to the new function. Unlike normal generators, afunc - tion that is 
called using yield from can return a value that becomes the result of the yield from 
statement. More information about yield from can be found in PEP 380. Finally, if 
programming with generators, it is important to stress that there are some major 
limitations. In particular, you get none of the benefits that threads provide. For instance, if 
you execute any code that is CPU bound or which blocks for I/O, it will suspend the entire 
task scheduler until the completion of that operation. To work around this, your only real 
option is to delegate the operation to a separate thread or process where it can run 
independently. Another limitation is that most Python libraries have not been written to 
work well with generator-based threading. If you take this approach, you may find that you 
need to write replacements for many standard library functions. As basic background on 
coroutines and the techniques utilized in this recipe, see PEP 342 and “A Curious Course on 
Coroutines and Concurrency”. PEP 3156 also has a modern take on asynchronous I/O 
involving coroutines. In practice, it is extremelyunlikely that you will write a low-level 
coroutine scheduler yourself. However, ideas surrounding coroutines are the basis for many 
popular libraries, in - cluding gevent, greenlet, Stackless Python, and similar projects. 


12.13 多 个 线程 队列 轮 询 
问题 


You have acollection of thread queues, and you would like to be able to poll them for 
incoming items, much in the same way as you might poll a collection of network con - 
nections for incoming data. 


A common solution to polling problems involves a little-known trick involving a hidden 
loopback network connection. Essentially, the idea is as follows: for each queue (or any 
object) that you want to poll, you create a pair of connected sockets. You then write on one 
of the sockets to signal the presence of data. The other sockect is then passed to select() or 
asimilar function to poll for the arrival of data. Here is some sample code that illustrates 
this idea: 


import queue import socket import os 


class PollableQueue(queue.Queue): 
def _init_(self): 
super().__init__() # Create a pair of connected sockets if os.name == ‘posix’: 


self._putsocket, self. getsocket = socket.socketpair() 


else: 
# Compatibility on non-POSIX systems server = socket.socket(socket.AF_INET, 
socket.SOCK_STREAM) server.bind((‘127.0.0.1’, 0)) server.listen(1) 
self._putsocket = socket.socket(socket.AF_INET, socket SOCK_STREAM) 
self._putsocket.connect(server.getsockname()) self._getsocket, = server.accept() 
server.close() 


def fileno(self): 
return self._getsocket.fileno() 


def put(self, item): 
super().put(item) self. putsocket.send(b’x’) 


def get(self): 
self. getsocket.recv(1) return super().get() 


In this code, a new kind of Queue instance is defined where there is an underlying pair of 
connected sockets. The socketpair() function on Unix machines can establish such sockets 
easily. On Windows, you have to fake it using code similar to that shown (it looks a bit 
weird, but a server socket is created and a client immediately connects to it afterward). The 
normal get() and put() methods are then redefined slightly to perform a small bit of MO on 
these sockets. The put() method writes a single byte of data to one of the sockets after 
putting data on the queue. The get() method reads a single byte of data from the other 
socket when removing an item from the queue. 


The fileno() method is what makes the queue pollable using a function such as se lect(). 
Essentially, it just exposes the underlying file descriptor of the socket used by the get() 
function. Here is an example of some code that defines a consumer which monitors multiple 
queues for incoming items: 


import select import threading 


def consumer(queues): 
” Consumer that reads data on multiple queues simultaneously 


(oP) 


while True: 
can_read, _,_ =select.select(queues,|[],[]) for r in can_read: 


item = r.get() print(‘Got:’, item) 


qi = PollableQueue() q2 = PollableQueue() q3 = PollableQueue() t = 
threading.Thread(target=consumer, args=([q1,q2,q3],)) tdaemon = True t.start() 


# Feed data to the queues q1.put(1) q2.put(10) q3.put(‘hello’) q2.put(15) ... 


If you try it, you'll find that the consumer indeed receives all of the put items, regardless of 
which queues they are placed in. 


The problem of polling non-file-like objects, such as queues, is often a lot trickier than it 
looks. For instance, if you don’t use the socket technique shown, your only option is to write 
code that cycles through the queues and uses a timer, like this: 


import time def consumer(queues): 


while True: 
for q in queues: 
if not q.empty(): 
item = q.get() print(‘Got:’, item) 


# Sleep briefly to avoid 100% CPU time.sleep(0.01) 


This might work for certain kinds of problems, but it’s clumsy and introduces other weird 
performance problems. For example, if new data is added to a queue, it won’t be detected 
for as long as 10 milliseconds (an eternity on a modern processor). You run into even 
further problems if the preceding polling is mixed with the polling of other objects, such as 
network sockets. For example, if you want to poll both sockets and queues at the same time, 
you might have to use code like this: 


import select 


def event_loop(sockets, queues): 
while True: 


# polling with a timeout can_read,_,_ = select.select(sockets, [], [], 0.01) for rin 
can_read: 


handle_read(r) 


for q in queues: 
if not q.empty(): 
item = q.get() print(‘Got:’, item) 


The solution shown solves a lot of these problems by simply putting queues on equal status 
with sockets. A single select() call can be used to poll for activity on both. It is not necessary 
to use timeouts or other time-based hacks to periodically check. More - over, if data gets 
added to a queue, the consumer will be notified almost instantaneously. Although there is a 
tiny amount of overhead associated with the underlying I/O, it often is worth it to have 
better response time and simplified coding. 


12.14 在 Un 这 系统 上 面 启动 守护 进程 
问题 


You would like to write a program that runs as a proper daemon process on Unix or Unix- 
like systems. 


解决 方案 

Creating a proper daemon process requires a precise sequence of system calls and careful 
attention to detail. The following code shows how to define a daemon process along with 
the ability to easily stop it once launched: 

#!/usr/bin/env python3 # daemon.py 

import os import sys 


import atexit import signal 


def daemonize(pidfile, *, stdin=’/dev/null’, 
stdout=7/dev/null’, stderr=’/dev/null’): 


if os.path.exists(pidfile): 
raise RuntimeError(‘Already running’) 


# First fork (detaches from parent) try: 


if os.fork() > 0: 
raise SystemExit(0) # Parent exit 


except OSError as e: 
raise RuntimeError(‘fork #1 failed.) 


os.chdir(‘/’) os.umask(0) os.setsid() # Second fork (relinquish session leadership) try: 
if os.fork() > 0: 
raise SystemExit(0) 


except OSError as e: 
raise RuntimeError(‘fork #2 failed.’) 


# Flush I/O buffers sys.stdout.flush() sys.stderr.flush() 
# Replace file descriptors for stdin, stdout, and stderr with open(stdin, ‘rb’, O) as f: 


os.dup2(f.fileno(), sys.stdin.fileno()) 


with open(stdout, ‘ab’, 0) as f: 
os.dup2(f.fileno(), sys.stdout.fileno()) 


with open(stderr, ‘ab’, 0) as f: 
os.dup2(f.fileno(), sys.stderr.fileno()) 


# Write the PID file with open(pidfile, w’) as f: 
print(os.getpid(),file=f) 
# Arrange to have the PID file removed on exit/signal atexit.register(lambda: 
os.remove(pidfile)) 
# Signal handler for termination (required) def sigterm_handler(signo, frame): 


raise SystemExit(1) 


signal.signal(signal.SIGTERM, sigterm_handler) 


def main(): 
import time sys.stdout.write(‘Daemon started with pid {}n’.format(os.getpid())) while 


True: 


sys.stdout.write(‘Daemon Alive! {}n’.format(time.ctime())) time.sleep(10) 


‘ 1 


if name_==‘_main_’: 
PIDFILE =‘/tmp/daemon.pid’ 


if len(sys.argv) != 2: 
print(‘Usage: {} [start|stop]’.format(sys.argv[0]), file=sys.stderr) raise SystemExit(1) 


To 


if sys.argv[1] == ‘start’: 
try: 
daemonize(PIDFILE, 
stdout=’/tmp/daemon.log’, stderr=’/tmp/dameon.log’) 


except RuntimeError as e: 
print(e, file=sys.stderr) raise SystemExit(1) 


main() 


elif sys.argv[1] == ‘stop’: 
if os.path.exists(PIDFILE): 
with open(PIDFILE) as f: 
os.kill(int(f.read()), signal.SIGTERM) 


else: 
print(‘Not running’, file=sys.stderr) raise SystemExit(1) 


else: 
print(‘Unknown command {!r}’.format(sys.argv[1)]), file=sys.stderr) raise 
SystemExit(1) 


launch the daemon, the user would use a command like this: 


bash % daemon.py start bash % cat /tmp/daemon.pid 2882 bash % tail -f /tmp/daemon.log 
Daemon started with pid 2882 Daemon Alive! Fri Oct 12 13:45:37 2012 Daemon Alive! Fri 
Oct 12 13:45:47 2012... 


Daemon processes run entirely in the background, so the command returns immedi - ately. 


However, you can view its associated pid file and log, as just shown. To stop the daemon, 


use: 


bash % daemon.py stop bash % 


讨 


论 


This recipe defines a function daemonize() that should be called at program startup to make 


the program run as a daemon. The signature to daemonize() is using keyword- only 


arguments to make the purpose of the optional arguments more clear when used. This 


forces the user to use a call such as this: 


daemonize(‘daemon.pid’, 


stdin=’/dev/null, stdout=’/tmp/daemon.log’, stderr=’/tmp/daemon.log’) 


As opposed to a more cryptic call such as: # Illegal. Must use keyword arguments 
daemonize(‘daemon.pid’, 


‘/dev/null’, ‘/tmp/daemon.log’,/tmp/daemon.log’) 


The steps involved in creating a daemon are fairly cryptic, but the general idea is as follows. 
First, a daemon has to detach itself from its parent process. This is the purpose of the first 
os.fork() operation and immediate termination by the parent. After the child has been 
orphaned, the call to os.setsid() creates an entirely new process session and sets the child as 
the leader. This also sets the child as the leader of a new process group and makes sure 
there is no controlling terminal. If this all sounds a bit too magical, it has to do with getting 
the daemon to detach properly from the terminal and making sure that things like signals 
don’t interfere with its operation. The calls to os.chdir() and os.umask(0) change the current 
working directory and reset the file mode mask. Changing the directory is usually a good 
idea so that the daemon is no longer working in the directory from which it was launched. 
The second call to os.fork() is by far the more mysterious operation here. This step makes 
the daemon process give up the ability to acquire a new controlling terminal and provides 
even more isolation (essentially, the daemon gives up its session leadership and thus no 
longer has the permission to open controlling terminals). Although you could probably omit 
this step, it’s typically recommended. Once the daemon process has been properly 
detached, it performs steps to reinitialize the standard I/O streams to point at files specified 
by the user. This part is actually somewhat tricky. References to file objects associated with 
the standard I/O streams are found in multiple places in the interpreter (sys.stdout, 

sys._ stdout_, etc.). Simply closing sys.stdout and reassigning it is not likely to work 
correctly, because there’s no way to know if it will fix all uses of sys.stdout. Instead, a 
separate file object is opened, and the os.dup2() call is used to have it replace the file 
descriptor currently being used 


by sys.stdout. When this happens, the original file for sys.stdout will be closed and the new 
one takes its place. It must be emphasized that any file encoding or text handling already 
applied to the standard I/O streams will remain in place. A common practice with daemon 
processes is to write the process ID of the daemon in a file for later use by other programs. 
The last part of the daemonize() function writes this file, but also arranges to have the file 
removed on program termination. The atex it.register() function registers a function to 
execute when the Python interpreter terminates. The definition of a signal handler for 
SIGTERM is also required for a graceful termination. The signal handler merely raises 
SystemExit() and nothing more. This might look unnecessary, but without it, termination 
signals kill the interpreter without performing the cleanup actions registered with 
atexit.register(). An example of code that kills the daemon can be found in the handling of 
the stop command at the end of the program. More information about writing daemon 
processes can be found in Advanced Pro - gramming in the UNIX Environment, 2nd 


Edition, by W. Richard Stevens and Stephen A. Rago (Addison-Wesley, 2005). Although 
focused on C programming, all of the ma - terial is easily adapted to Python, since all of the 
required POSIX functions are available in the standard library. 


第 十 三 章 : 脚本 编程 与 系统 管理 


许多 人 使 用 Python 作为 一 个 shell 脚 本 的 蔡 代 ， 用 来 实现 常用 系统 任务 的 自动 化 ， 如 文件 
的 操作 ， 系 统 的 配置 等 。 本 章 的 主要 目标 是 描述 光宇 编写 脚本 时 候 经 常 遇 到 的 一 些 功能 。 
例如 ， 解 析 命 令 行 选项 、 获 取 有 用 的 系统 配置 数据 等 等 。 第 5 章 也 包含 了 与 文件 和 目录 相 
关 的 一 般 信 息 。 

















Contents: 


13.1 通过 重 定 癌 / 管 道 / 文 件 接受 输入 





问题 


You want a script youve written to be able to accept input using whatever mechanism is 
easiest for the user. This should include piping output from a command to the script, 
redirecting a file into the script, or just passing a filename, or list of filenames, to the script 
on the command line. 


Python’s built-in fileinput module makes this very simple and concise. If you have a script 
that looks like this: #!/usr/bin/env python3 import fileinput 


with fileinput.input() as f_input: 
for line in f_input: 
print(line, end=") 


Then you can already accept input to the script in all of the previously mentioned ways. If 
you save this script as filein.py and make it executable, you can do all of the following and 
get the expected output: 


$ Is | /filein.py # Prints a directory listing to stdout. $ /filein.py /etc/passwd # Reads 
/etc/passwd to stdout. $ /filein.py < /etc/passwd # Reads /etc/passwd to stdout. 


The fileinput.input() function creates and returns an instance of the Filelnput class. In 
addition to containing a few handy helper methods, the instance can also be used as a 
context manager. So, to put all of this together, if we wrote a script that expected to be 
printing output from several files at once, we might have it include the filename and line 
number in the output, like this: 


>>> import fileinput 
>>> with fileinput.input('/etc/passwd') as f: 
>>> for line in f: 
print(f.filename(), f.lineno(), line, end='') 
/etc/passwd 1 ## 
/etc/passwd 2 # User Database 
/etc/passwd 3 # 


<other output omitted> 
Using it as a context manager ensures that the file is closed when it’s no longer being used, 


and we leveraged a few handy Filelnput helper methods here to get some extra information 
in the output. 


13.2 终止 程序 并 给 出 错误 信息 
问题 


You want your program to terminate by printing a message to standard error and re - 
turning a nonzero status code. 


To have a program terminate in this manner, raise a SystemExit exception, but supply the 
error message as an argument. For example: 


raise SystemExit(‘It failed!’) 


This will cause the supplied message to be printed to sys.stderr and the program to exit 
with a status code of 1. 


讨论 


This is a small recipe, but it solves a common problem that arises when writing scripts. 
Namely, to terminate a program, you might be inclined to write code like this: 


import sys sys.stderr.write(‘It failed!n’) raise SystemExit(1) 


None of the extra steps involving import or writing to sys.stderr are neccessary If you 
simply supply the message to SystemExit() instead. 


13.3 解析 命令 行 选项 
问题 


You want to write a program that parses options supplied on the command line (found in 
syS.argv). 


The argparse module can be used to parse command-line options. A simple example will 
help to illustrate the essential features: 


n” 


# search.py ” Hypothetical command-line tool for searching a collection of files for one or 


more text patterns. ” import argparse parser = 
argparse.ArgumentParser(description=’Search some files’) 


parser.add_argument(dest='filenames’,metavar='filename’, nargs=") 
parser.add_argument(‘-p’, ‘pat’, metavar=’pattern’, required=True, 


dest=’patterns’, action=’append’, help=’text pattern to search for’) 


parser.add_argument(‘-v’, dest=’verbose’, action=’store_true’, 
help=’verbose mode’) 


parser.add_argument(‘-o’, dest=’outfile’, action=’store’, 
help=’output file’) 


parser.add_argument(‘-speed’, dest=’speed’, action=’store’, 
choices={‘slow’, fast’}, default=’slow’, help=’search speed’) 


args = parser.parse_args() 


# Output the collected arguments print(args.filenames) print(args.patterns) 
print(args.verbose) print(args.outfile) print(args.speed) 


This program defines a command-line parser with the following usage: 


bash % python3 search.py -h usage: search.py [-h] [-p pattern] [-v] [-o OUTFILE] [-speed 
{slow,fast}] 


[filename [filename ...]] 
Search some files 


positional arguments: 
filename 


optional arguments: 


-h, —-help show this help message and exit 
-p pattern, -~-pat pattern 

text pattern to search for 
=y verbose mode 


-o OUTFILE output file 


-speed {slow,fast} search speed 


The following session shows how data shows up in the program. Carefully observe the 
output of the print() statements. 


bash % python3 search.py foo.txt bar.txt usage: search.py [-h] -p pattern [-v] [-o OUTFILE] 
[-speed {fast,slow}] 


[filename [filename ...]] 
search.py: error: the following arguments are required: -p/-pat 


bash % python3 search.py -v -p spam -pat=eggs foo.txt bar.txt filenames = [‘foo.txt’, 
‘par.txt’] patterns = [‘spam’, ‘eggs’] verbose = True outfile = None speed = slow 


bash % python3 search.py -v -p spam -pat=eggs foo.txt bar.txt -o results filenames = 
[‘foo.txt’, ‘bar.txt’] patterns = [‘spam’, ‘eggs’] verbose = True outfile = results speed = slow 


bash % python3 search.py -v -p spam -pat=eggs foo.txt bar.txt -o results 
-Speed=fast 


filenames = [‘foo.txt’, ‘bar.txt’] patterns = [‘spam’, ‘eggs’] verbose = True outfile = results 
speed = fast 


Further processing of the options is up to the program. Replace the print() functions with 
something more interesting. 


The argparse module is one of the largest modules in the standard library, and has a huge 
number of configuration options. This recipe shows an essential subset that can be used 
and extended to get started. To parse options, you first create an ArgumentParser instance 
and add declarations for the options you want to support it using the add_argument() 
method. In each add_ar gument() call, the dest argument specifies the name of an attribute 
where the result of parsing will be placed. The metavar argument is used when generating 
help messages. The action argument specifies the processing associated with the argument 
and is often store for storing a value or append for collecting multiple argument values into 
a list. The following argument collects all of the extra command-line arguments into a list. 
It’s being used to make a list of filenames in the example: 


parser.add_argument(dest='filenames’,metavar='filename’, nargs="") 


The following argument sets a Boolean flag depending on whether or not the argument was 
provided: 


parser.add_argument(‘-v’, dest=’verbose’, action=’store_true’, 
help=’verbose mode’) 


The following argument takes a single value and stores it as a string: 


parser.add_argument(‘-o’, dest=’outfile’, action=’store’, 
help=’output file’) 


The following argument specification allows an argument to be repeated multiple times and 
all of the values append into a list. The required flag means that the argument must be 
supplied at least once. The use of -p and -pat mean that either argument name is 
acceptable. 


parser.add_argument(‘-p’, ‘-pat’,metavar=’pattern’, required=True, 
dest=’patterns’, action=’append’, help=’text pattern to search for’) 


Finally, the following argument specification takes a value, but checks it against a set of 
possible choices. 


parser.add_argument(‘-speed’, dest=’speed’, action=’store’, 
choices={‘slow’, fast’}, default=’slow’, help=’search speed’) 


Once the options have been given, you simply execute the parser.parse() method. This will 
process the sys.argv value and return an instance with the results. The results 


for each argument are placed into an attribute with the name given in the dest parameter to 
add_argument(). There are several other approaches for parsing command-line options. For 
example, you might be inclined to manually process sys.argv yourself or use the getopt 
module (which is modeled after a similarly named C library). However, if you take this 
approach, you'll simply end up replicating much of the code that argparse already provides. 
You may also encounter code that uses the optparse library to parse options. Although 
optparse is very similar to argparse, the latter is more modern and should be preferred in 
new projects. 


13.4 运行 时 弹出 密码 输入 提示 
问题 


You've written a script that requires a password, but since the script is meant for inter - 
active use, you'd like to prompt the user for a password rather than hardcode it into the 
script. 


Python’s getpass module is precisely what you need in this situation. It will allow you to 
very easily prompt for a password without having the keyed-in password displayed on the 
user’s terminal. Here’s how it’s done: 


import getpass 

user = getpass.getuser() passwd = getpass.getpass() 

if svc_login(user, passwd): # You must write svc_login() 
print(‘Yay!’) 

else: 


print(‘Boo!’) 


In this code, the svc_login() function is code that you must write to further process the 
password entry. Obviously, the exact handling is application-specific. 


Note in the preceding code that getpass.getuser() doesn’t prompt the user for their 
username. Instead, it uses the current user’s login name, according to the user’s shell 
environment, or as a last resort, according to the local system’s password database (on 
platforms that support the pwd module). 


If you want to explicitly prompt the user for their username, which can be more reliable, use 
the built-in input function: 


user = input(‘Enter your username: ") 


It’s also important to remember that some systems may not support the hiding of the typed 
password input to the getpass() method. In this case, Python does all it can to forewarn you 
of problems (i.e., it alerts you that passwords will be shown in cleartext) before moving on. 


13.5 获取 终端 的 大 小 
问题 


你 需要 知道 当前 终端 的 大 小 以 便 正 确 的 格式 化 输出 。 


解决 方案 
使 用 os.get_terminal_size() 函数 来 做 到 这 一 点 o 


代码 示例 : 


>>> import os 

>>> sz = os.get_terminal_size() 

>>> SZ 

os.terminal_size(columns=80, lines=24) 
>>> sz.columns 

80 

>>> sz.lines 

24 

>>> 


讨论 


有 太 多 方式 来 得 知 终端 大 小 了 ， 从 读 取 环境 变量 到 执行 底层 的 ioct1() 函数 等 等 。 不 
过 ， 为 什么 要 去 研究 这 些 复 杂 的 办 法 而 不 是 仅仅 调用 一 个 简单 的 函数 呢 ? 


13.6 执行 外 部 命令 并 获取 它 的 输出 
问题 


You want to execute an external command and collect its output as a Python string. 


Use the subprocess.check_output() function. For example: 
import subprocess out_bytes = subprocess.check_output([‘netstat’,’-a’]) 


This runs the specified command and returns its output as a byte string. If you need to 
interpret the resulting bytes as text, add a further decoding step. For example: 


out_text = out_bytes.decode(‘utf-8’) 


If the executed command returns a nonzero exit code, an exception is raised. Here is an 
example of catching errors and getting the output created along with the exit code: 


try: 
out_bytes = subprocess.check_output([‘cmd’,arg1’,arg2’]) 


except subprocess.CalledProcessError as e: 
out_bytes = e.output # Output generated before error code = e.returncode # Return 
code 


By default, check_output() only returns output written to standard output. If you want both 
standard output and error collected, use the stderr argument: 


out_bytes = subprocess.check_output([‘cmd’,’arg1’,’arg2’], 
stderr=subprocess.STDOUT) 


If you need to execute a command with a timeout, use the timeout argument: 


try: 
out_bytes = subprocess.check_output([‘cmd’, arg1’, arg2’], timeout=5) 


except subprocess. TimeoutExpired as e: 


Normally, commands are executed without the assistance of an underlying shell (e.g., sh, 
bash, etc.). Instead, the list of strings supplied are given to a low-level system com - mand, 
such as os.execve(). If you want the command to be interpreted by a shell, supply it using a 


simple string and give the shell=True argument. This is sometimes useful if you’re trying to 
get Python to execute a complicated shell command involving pipes, I/O redirection, and 
other features. For example: 

out_bytes = subprocess.check_output(‘grep python | wc > out’, shell=True) 

Be aware that executing commands under the shell is a potential security risk if argu - 


ments are derived from user input. The shlex.quote() function can be used to properly quote 
arguments for inclusion in shell commands in this case. 


讨论 


The check_output() function is the easiest way to execute an external command and get its 
output. However, if you need to perform more advanced communication with a 


subprocess, such as sending it input, you'll need to take a difference approach. For that, use 
the subprocess.Popen class directly. For example: 


import subprocess 
# Some text to send text = b” hello world this is atest goodbye” 
# Launch a command with pipes p = subprocess.Popen([‘we)], 
stdout = subprocess.PIPE, stdin = subprocess.PIPE) 
# Send the data and get the output stdout, stderr = p.communicate(text) 
# To interpret as text, decode out = stdout.decode(‘utf-8’) err = stderr.decode(‘utf-8’) 
The subprocess module is not suitable for communicating with external commands that 
expect to interact with a proper TTY. For example, you can’t use it to automate tasks that 
ask the user to enter a password (e.g., a ssh session). For that, you would need to turn to a 


third-party module, such as those based on the popular “expect” family of tools (e.g., 
pexpect or similar). 


13.7 复制 或 者 移动 文件 和 目录 


问题 


You need to copy or move files and directories around, but you don’t want to do it by calling 
out to shell commands. 


The shutil module has portable implementations of functions for copying files and 
directories. The usage is extremely straightforward. For example: 


import shutil 

# Copy src to dst. (cp src dst) shutil.copy(src, dst) 

# Copy files, but preserve metadata (cp -p src dst) shutil.copy2(src, dst) 

# Copy directory tree (cp -R src dst) shutil.copytree(src, dst) 

# Move src to dst (mv src dst) shutil.move(src, dst) 

The arguments to these functions are all strings supplying file or directory names. The 
underlying semantics try to emulate that of similar Unix commands, as shown in the 
comments. By default, symbolic links are followed by these commands. For example, if the 
source file is asymbolic link, then the destination file will be a copy of the file the link points 
to. If you want to copy the symbolic link instead, supply the follow_symlinks keyword 
argument like this: 

shutil.copy2(src, dst, follow_symlinks=False) 

If you want to preserve symbolic links in copied directories, do this: 

shutil.copytree(src, dst, symlinks=True) 

The copytree() optionally allows you to ignore certain files and directories during the copy 
process. To do this, you supply an ignore function that takes a directory name and filename 


listing as input, and returns a list of names to ignore as aresult. For ex - ample: 


def ignore_pyc_files(dirname, filenames): 
return [name in filenames if name.endswith(‘.pyc)] 


shutil.copytree(src, dst, ignore=ignore_pyc_files) 


Since ignoring filename patterns is common, a utility function ignore_patterns() has already 
been provided to do it. For example: 


oy) 


shutil.copytree(src, dst, ignore=shutil.ignore_patterns(‘~’, pyc)) 


讨论 


Using shutil to copy files and directories is mostly straightforward. However, one caution 
concerning file metadata is that functions such as copy2() only make a best effort in 
preserving this data. Basic information, such as access times, creation times, and 
permissions, will always be preserved, but preservation of owners, ACLs, resource forks, 
and other extended file metadata may or may not work depending on the un - derlying 
operating system and the user’s own access permissions. You probably wouldn’t want to 
use a function like shutil.copytree() to perform system backups. When working with 
filenames, make sure you use the functions in os.path for the greatest portability (especially 
if working with both Unix and Windows). For example: 


>>> filename = '/Users/guido/programs/spam.py' 

>>> import os.path 

>>> os.path.basename(filename) 

'spam. py ' 

>>> os.path.dirname(filename) 
'/Users/guido/programs' 

>>> os.path.split(filename) 
('/Users/guido/programs', 'spam.py') 

>>> os.path.join('/new/dir', os.path.basename(filename) ) 
'/new/dir/spam.py' 

>>> os.path.expanduser('~/guido/programs/spam.py') 
'/Users/guido/programs/spam.py' 

>>> 


One tricky bit about copying directories with copytree() is the handling of errors. For 
example, in the process of copying, the function might encounter broken symbolic links, files 
that can’t be accessed due to permission problems, and so on. To deal with this, all 
exceptions encountered are collected into a list and grouped into a single exception that 
gets raised at the end of the operation. Here is how you would handle it: 


try: 
shutil.copytree(src, dst) 


except shutil.Error as e: 
for src, dst, msg in e.args[0]: 
# src is source name # dst is destination name # msg is error message from exception 
print(dst, src, msg) 


If you supply the ignore_dangling symlinks=True keyword argument, then copy tree() will 
ignore dangling symlinks. The functions shown in this recipe are probably the most 
commonly used. However, shutil has many more operations related to copying data. The 
documentation is def - initely worth a further look. See the Python documentation. 


13.8 创建 和 解压 压缩 文件 
问题 


You need to create or unpack archives in common formats (e.g., .tar, .tgz, or .zip). 


解决 方案 


The shutil module has two functions—make_archive() and unpack_archive()—that do 
exactly what you want. For example: 


>>> import shutil 
>>> shutil.unpack_archive('Python-3.3.0.tgz') 


"/Users/beazley/Downloads/py33.zip' 
>>> 


The second argument to make_archive() is the desired output format. To get a list of 
supported archive formats, use get_archive_formats(). For example: 


>>> shutil.get_archive_formats() 

[('bztar', "bzip2'ed tar-file"), ('gztar', "gzip'ed tar-file"), 
('tar', ‘uncompressed tar file'), ('zip', ‘ZIP file')] 

>>> 


Python has other library modules for dealing with the low-level details of various archive 
formats (e.g., tarfile, zipfile, gzip, bz2, etc.). However, if all you’re trying to do is make or 
extract an archive, there’s really no need to go so low level. You can just use these high-level 


functions in shutil instead. The functions have a variety of additional options for logging, 
dryruns, file permissions, and so forth. Consult the shutil library documentation for further 


details. 
13.9 通过 文件 名 查找 文件 
问题 


You need to write a script that involves finding files, like a file renaming script or a log 
archiver utility, but you’d rather not have to call shell utilities from within your Python 
script, or you want to provide specialized behavior not easily available by “shelling out.” 


To search for files, use the os.walk() function, supplying it with the top-level directory. Here 
is an example of a function that finds a specific filename and prints out the full path of all 
matches: 


#!/usr/bin/env python3.3 import os 


def findfile(start, name): 
for relpath, dirs, files in os.walk(start): 
if name in files: 
full_path = os.path join(start, relpath, name) 
print(os.path.normpath(os.path.abspath(full_path))) 


if name_==‘_main_’: 
findfile(sys.argv[1], sys.argv[2]) 


Save this script as findfile.py and run it from the command line, feeding in the starting point 
and the name as positional arguments, like this: 


bash % ./findfile.py . myfile.txt 


讨论 


The os.walk() method traverses the directory hierarchy for us, and for each directory it 
enters, it returns a 3-tuple, containing the relative path to the directory it’s inspecting, a list 
containing all of the directory names in that directory, and a list of filenames in that 
directory. For each tuple, you simply check if the target filename is in the files list. If it is, 
os.path join() is used to put together a path. To avoid the possibility of weird looking paths 


like /./foo//bar, two additional functions are used to fix the result. The first is 
os.path.abspath(), which takes a path that might be relative and forms the absolute path, 
and the second is os.path.normpath(), which will normalize the path, thereby resolving 
issues with double slashes, multiple references to the current directory, and so on. Although 
this script is pretty simple compared to the features of the find utility found on UNIX 
platforms, it has the benefit of being cross-platform. Furthermore, a lot of additional 
functionality can be added in a portable manner without much more work. To illustrate, 
here is a function that prints out all of the files that have a recent modifi - cation time: 


#!/usr/bin/env python3.3 
import os import time 


def modified_within(top, seconds): 
now = time.time() for path, dirs, files in os.walk(top): 


for name in files: 
fullpath = os.path.join(path, name) if os.path.exists(fullpath): 


mtime = os.path.getmtime(fullpath) if mtime > (now - seconds): 


print(fullpath) 


if name_==‘_main_’: 
import sys if len(sys.argv) != 3: 


print(‘Usage: {} dir seconds’ format(sys.argv[O])) raise SystemExit(1) 
modified_within(sys.argv[1], float(sys.argv[2])) 
It wouldn’t take long for you to build far more complex operations on top of this little 


function using various features of the os, os.path, glob, and similar modules. See Rec - ipes 
5.11 and 5.13 for related recipes. 


13.10 读 取 配置 文件 
问题 


You want to read configuration files written in the common .ini configuration file format. 


The configparser module can be used to read configuration files. For example, suppose you 
have this configuration file: 


; config.ini ; Sample configuration file 


[installation] library=%(prefix)s/lib include=%(prefix)s/include bin=%(prefix)s/bin 
prefix=/usr/local 


# Setting related to debug configuration [debug] log errors=true show_warnings=False 


[server] port: 8080 nworkers: 32 pid-file=/tmp/spam.pid root=/www/root signature: 


Here is an example of how to read it and extract values: 


>>> from configparser import ConfigParser 
>>> cfg = ConfigParser() 

>>> cfg.read('config.ini' ) 

[ 'config.ini' ] 

>>> cfg.sections() 

['installation', 'debug', ‘server'] 

>>> cfg.get('installation','library') 
"/usr/local/1lib' 

>>> cfg.getboolean('debug','log errors') 


True >>> cfg.getint(‘server’, port’) 8080 >>> cfg.getint(‘server’, nworkers’) 32 >>> 
print(cfg.get(‘server’, signature’) 


ne 55555 SS SS SSS SSS Brought to you by the Python Cookbook 


If desired, you can also modify the configuration and write it back to a file using the 
cfg.write() method. For example: 


>>> cfg.set('server', 'port','9000') 

>>> cfg.set('debug','log errors’, 'False') 
>>> import sys 

>>> cfg.write(sys.stdout) 

[installation] 

library = %(prefix)s/lib 

include = %(prefix)s/include 

bin = %4(prefix)s/bin 

prefix = /usr/local 


[debug] log_errors = False show_warnings = False 


[server] port = 9000 nworkers = 32 pid-file = /tmp/spam.pid root = /www/root signature = 


>>> 


讨论 


Configuration files are well suited as a human-readable format for specifying configu - 
ration data to your program. Within each config file, values are grouped into different 


na 


sections (e.g., “installation,” “debug,” and “server,” in the example). Each section then 
specifies values for various variables in that section. There are several notable differences 
between a config file and using a Python source file for the same purpose. First, the syntax is 
much more permissive and “sloppy.” For example, both of these assignments are 


equivalent: 
prefix=/usr/local prefix: /usr/local 


The names used in a config file are also assumed to be case-insensitive. For example: 


>>> cfg.get('installation','PREFIX') 
'/usr/local' 
>>> cfg.get('installation','prefix') 
'/usr/local' 


>>> 


When parsing values, methods such as getboolean() look for any reasonable value. For 
example, these are all equivalent: 


log errors = true log_errors = TRUE log errors = Yes log errors = 1 


Perhaps the most significant difference between a config file and Python code is that, unlike 
scripts, configuration files are not executed in a top-down manner. Instead, the file is read in 
its entirety. If variable substitutions are made, they are done after the fact. For example, in 
this part of the config file, it doesn’t matter that the prefix variable is assigned after other 
variables that happen to use it: 


[installation] library=%(prefix)s/lib include=%(prefix)s/include bin=%(prefix)s/bin 
prefix=/usr/local 


An easily overlooked feature of ConfigParser is that it can read multiple configuration files 
together and merge their results into a single configuration. For example, suppose a user 
made their own configuration file that looked like this: 


; ~/.config.ini [installation] prefix=/Users/beazley/test 


[debug] log errors=False 


This file can be merged with the previous configuration by reading it separately. For 
example: 


>>> # Previously read configuration 
>>> cfg.get('installation', ‘prefix') 
"/usr/local' 


>>> # Merge in user-specific configuration 

>>> import os 

>>> cfg.read(os.path.expanduser('~/.config.ini')) 
['/Users/beazley/.config.ini' ] 


>>> cfg.get('installation', ‘prefix') 
"/Users/beazley/test' 

>>> cfg.get('installation', ‘library') 
"/Users/beazley/test/lib' 

>>> cfg.getboolean('debug', ‘log errors') 
False 

>>> 


Observe how the override of the prefix variable affects other related variables, such as the 
setting of library. This works because variable interpolation is performed as late as possible. 
You can see this by trying the following experiment: 


>>> cfg.get('installation','library' ) 
"/Users/beazley/test/1lib' 

>>> cfg.set('installation', 'prefix','/tmp/dir' ) 
>>> cfg.get('installation','library' ) 
"/tmp/dir/1lib' 

>>> 


Finally, it’s important to note that Python does not support the full range of features you 
might find in an .ini file used by other programs (e.g., applications on Windows). Make sure 
you consult the configparser documentation for the finer details of the syntax and 
supported features. 


13.11 给 简单 脚本 增加 日 志 功 能 
问题 


Youwant scripts and simple programs to write diagnosticinformation to log files. 


The easiest way to add logging to simple programs is to use the logging module. For 
example: 


import logging 


def main(): 
# Configure the logging system logging.basicConfig( 


filename=’app.log’, level=logging. ERROR 


) 


# Variables (to make the calls that follow work) hostname = ‘www.python.org’ item = 
‘spam’ filename = ‘data.csv’ mode = ‘r 


# Example logging calls (insert into your program) logging.critical(‘Host %s unknown’, 
hostname) logging.error(“Couldn’t find %r’, item) logging.warning(‘Feature is 
deprecated’) logging.info(‘Opening file %r, mode=%r’, filename, mode) 
logging.debug(‘Got here’) 


‘ I 


if name_==‘_main_’: 
main() 


The five logging calls (critical(), error(), warning(), info(), debug()) represent different severity 
levels in decreasing order. The level argument to basicConfig() is a filter. All messages issued 
at a level lower than this setting will be ignored. The argument to each logging operation is a 
message string followed by zero or more arguments. When making the final log message, 
the % operator is used to format the message string using the supplied arguments. If you 
run this program, the contents of the file app.log will be as follows: 


CRITICAL:root:Host www.python.org unknown ERROR:root:Could not find ‘spam’ 


If you want to change the output or level of output, you can change the parameters to the 
basicConfig() call. For example: 


logging.basicConfig( 


filename=’app.log’, level=logging. WARNING, format='%(levelname)s:%(asctime)s:% 
(message)s’) 


As aresult, the output changes to the following: 
CRITICAL:2012-11-20 12:27:13,595:Host www.python.org unknown ERROR:2012- 
11-20 12:27:13,595:Could not find ‘spam’ WARNING:2012- 11-20 


12:27:13,595:Feature is deprecated 


As shown, the logging configuration is hardcoded directly into the program. If you want to 
configure it from a configuration file, change the basicConfig() call to the following: 


import logging import logging.config 


def main(): 
# Configure the logging system logging.config.fileConfig(‘logconfig.ini’ ... 


Now make a configuration file logconfig.ini that looks like this: 
[loggers] keys=root 
[handlers] keys=defaultHandler 
[formatters] keys=defaultFormatter 
[logger_root] level=INFO handlers=default Handler qualname=root 


[handler_defaultHandler] class=FileHandler formatter=defaultFormatter args= 
(‘app.log’, ʻa’) 


[formatter_defaultFormatter] format=%(levelname)s:%(name)s:%(message)s 


If you want to make changes to the configuration, you can simply edit the logcon - fig.ini 
file as appropriate. 


讨论 


lgnoringforthe momentthatthere areabout a million advanced configuration options for 
thelogging module,this solution is quite sufficient for simple programs and scripts.Simply 
make sure that you execute the basicConfig() call prior to making any logging calls, and your 


program will generate logging output. If you want the logging messages to route to 
standard error instead of a file, don’t supply any filename information to basicConfig(). For 
example, simply do this: 

logging.basicConfig(level=logging.INFO) 

One subtle aspect of basicConfig() is that it can only be called once in your program. If you 
later need to change the configuration of the logging module, you need to obtain the root 
logger and make changes to it directly. For example: 

logging.getLogger().level = logging. DEBUG 

It must be emphasized that this recipe only shows a basic use of the logging module. There 


are significantly more advanced customizations that can be made. An excellent resource for 
such customization is the “Logging Cookbook”. 


13.12 给 内 库 增 加 日 志 功 能 
问题 


You would like to add a logging capability to a library, but don’t want it to interfere with 
programs that don’t use logging. 


解决 方案 


For libraries that want to perform logging, you should create a dedicated logger object, and 
initially configure it as follows: 


# somelib.py 
import logging log = logging.getLogger(_ name_) log.addHandler(logging.NullHandler()) 
# Example function (for testing) def func(): 

log.critical(‘A Critical Error!’) log.debug(‘A debug message’) 


With this configuration, no logging will occur by default. For example: 


>>> import somelib 
>>> somelib.func() 
>>> 


However, if the logging system gets configured, log messages will start to appear. For 
example: 


>>> import logging 

>>> logging. basicConfig() 

>>> somelib.func() 

CRITICAL: somelib:A Critical Error! 
>>> 


讨论 


Libraries present a special problem for logging, since information about the environ - ment 
in which they are used isn’t known. As a general rule, you should never write library code 
that tries to configure the logging system on its own or which makes as - sumptions about 
an already existing logging configuration. Thus, you need to take great care to provide 
isolation. The call to getLogger(_ name_) creates a logger module that has the same name 
as the calling module. Since all modules are unique, this creates a dedicated logger that is 
likely to be separate from other loggers. 


The log.addHandler(logging.NullHandler()) operation attaches a null handler to the just 
created logger object. A null handler ignores all logging messages by default. Thus, if the 
library is used and logging is never configured, no messages or warnings will appear. One 
subtle feature of this recipe is that the logging of individual libraries can be inde - 
pendently configured, regardless of other logging settings. For example, consider the 
following code: 


>>> import logging 

>>> logging. basicConfig(level=logging.ERROR) 
>>> import somelib 

>>> somelib.func() 

CRITICAL: somelib:A Critical Error! 


>>> # Change the Logging Level for '‘somelib' only 
>>> logging.getLogger('somelib').level=logging.DEBUG 
>>> somelib.func() 

CRITICAL: somelib:A Critical Error! 

DEBUG: somelib:A debug message 

>>> 


Here, the root logger has been configured to only output messages at the ERROR level or 
higher. However, the level of the logger for somelib has been separately configured to 
output debugging messages. That setting takes precedence over the global setting. The 
ability to change the logging settings for a single module like this can be a useful debugging 
tool, since you don’t have to change any of the global logging settings—simply change the 
level for the one module where you want more output. The “Logging HOWTO” has more 
information about configuring the logging module and other useful tips. 


13.13 记录 程序 执行 的 时 间 
问题 


You want to be able to record the time it takes to perform various tasks. 


The time module contains various functions for performing timing-related functions. 
However, it’s often useful to put a higher-level interface on them that mimics a stop watch. 
For example: 


import time 


class Timer: 
def _ init_(self, func=time.perf_counter): 
self.elapsed = 0.0 self. func = func self. start = None 


def start(self): 
if self. start is not None: 
raise RuntimeError(‘Already started’) 


self. start = self. func() 


def stop(self): 
if self. start is None: 
raise RuntimeError(‘Not started’) 


end = self._func() self.elapsed += end - self. start self. start = None 


def reset(self): 
self.elapsed = 0.0 


@property def running(self): 


return self. start is not None 


def _enter_(self): 


self.start() return self 


def _exit_ (self, *args): 
self.stop() 


This class defines a timer that can be started, stopped, and reset as needed by the user. It 
keeps track of the total elapsed time in the elapsed attribute. Here is an example that shows 
how it can be used: 


def countdown(n): 
while n > 0: 
n -= 


# Use 1: Explicit start/stop t = Timer() t.start() countdown(1000000) t.stop() 
print(t.elapsed) 


# Use 2: As acontext manager with t: 
countdown(1000000) 
print(t.elapsed) 


with Timer() as t2: 
countdown(1000000) 


print(t2.elapsed) 


讨论 


This recipe provides a simple yet very useful class for makingtiming measurements and 
tracking elapsed time. It’s also a nice illustration of how to support the context- 
management protocol and the with statement. One issue in making timing measurements 
concerns the underlying time function used to do it. As a general rule, the accuracy of timing 
measurements made with functions such as time.time() or time.clock() varies according to 
the operating system. In contrast, the time.perf_counter() function always uses the highest- 
resolution timer available on the system. As shown, the time recorded by the Timer class is 
made according to wall-clock time, and includes all time spent sleeping. If you only want the 
amount of CPU time used by the process, use time.process_time() instead. For example: 


t = Timer(time.process_time) with t: 


countdown(1000000) 


print(t.elapsed) 


Both the time.perf_counter() and time.process_time() return a “time” in fractional seconds. 
However, the actual value of the time doesn’t have any particular meaning. To make sense 
of the results, you have to call the functions twice and compute a time difference. More 
examples of timing and profiling are given in Recipe 14.13. 


13.14 限制 内 在 和 CPU 的 使 用 量 
问题 


Youwantto place some limits on the memory orCPU useof aprogram runningon Unix 
System. 


The resource module can be used to perform both tasks. For example, to restrict CPU time, 
do the following: 


import signal import resource import os 


def time_exceeded(signo, frame): 
print(“Time’s up!”) raise SystemExit(1) 


def set_max_runtime(seconds): 
# Install the signal handler and set a resource limit soft, hard = 
resource.getrlimit(resource.RLIMIT_CPU) resource.setrlimit(resource.RLIMIT_CPU, 
(seconds, hard)) signal.signal(signal.SIGXCPU, time_exceeded) 

if name_==‘_main_’: 
set_max_runtime(15) while True: 


pass 
When this runs, the SIGXCPU signal is generated when the time expires. The program can 


then clean up and exit. To restrict memory use, put a limit on the total address space in use. 
For example: 


import resource 


def limit_memory(maxsize): 
soft, hard = resource.getrlimit(resource.RLIMIT_AS) 
resource.setrlimit(resource.RLIMIT_AS, (maxsize, hard)) 


With a memory limit in place, programs will start generating MemoryError exceptions when 
no more memory is available. 


讨论 


In this recipe,the setrlimit() function is used to setasoft and hard limit on a particular 
resource. The soft limit is a value upon which the operating system will typically restrict or 
notify the process via a signal. The hard limit represents an upper bound on the values that 
may be used for the soft limit. Typically, this is controlled by asystem-wide pa - rameter set 
by the system administrator. Although the hard limit can be lowered, it can never be raised 
by user processes (even if the process lowered itself). The setrlimit() function can 
additionally be used to set limits on things such as the number of child processes, number of 
open files, and similar system resources. Consult the documentation for the resource 
module for further details. Be aware that this recipe only works on Unix systems, and that it 
might not work on all of them. For example, when tested, it works on Linux but not on OS X. 


13.15 启动 一 个 WEB 浏 览 器 
问题 


You want to launch a browser from a script and have it point to some URL that you specify. 


The webbrowser module can be used to launch a browser in a platform-independent 
manner. For example: 


>>> import webbrowser 

>>> webbrowser.open('http://www.python.org') 
True 

>>> 


This opens the requested page using the default browser. If you want a bit more control 
over how the page gets opened, you can use one of the following functions: 


>>> # Open the page in a new browser window 

>>> webbrowser.open_new('http://www.python.org' ) 
True 

>>> 


>>> # Open the page in a new browser tab 

>>> webbrowser.open_new_tab('http://www.python.org' ) 
True 

>>> 


These will try to open the page in a new browser window or tab, if possible and supported 
by the browser. If you want to open a page in a specific browser, you can use the 
webbrowser.get() function to specify a particular browser. For example: 


>>> c = webbrowser.get('firefox') 

>>> c.open('http://www.python.org' ) 

True 

>>> C.open_new_tab('http://docs.python.org' ) 
True 

>>> 


A full list of supported browser names can be found in the Python documentation. 


Being able to easily launch a browser can be a useful operation in many scripts. For example, 
maybe a script performs some kind of deployment to a server and you'd like to have it 
quickly launch a browser so you can verify that it’s working. Or maybe a program writes 
data out in the form of HTML pages and you'd just like to fire up a browser to see the result. 
Either way, the webbrowser module is a simple solution. 


第 十 四 章 : MA HAN oe E 


试验 还 是 很 棒 的 ， 但 是 调试 ? 就 没 那么 有 趣 了 。 事 实 是 ， 在 Python 测试 代码 之 前 没有 编 

译 吉 来 分 析 你 的 代码 ， 因 此 使 的 测试 成 为 开发 的 一 个 重要 部 分 。 本 章 的 目标 是 讨论 一 些 关 

于 测试 、 eae ag LE 的 常见 问题 。 但 是 并 不 是 为 测试 驱动 开发 或 者 单元 测试 模块 做 一 
个 简要 的 介绍 。 因 此 ， 笔 者 假定 读者 熟悉 测试 概念 
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14.1 测试 输出 到 标准 输出 上 


问题 


You have a program that has a method whose output goes to standard Output (sys.stdout). 
This almost always means that it emits text to the screen. You'd like to write a test for your 
code to prove that, given the proper input, the proper output is displayed. 


Using the unittest.mock module’s patch() function, it’s pretty simple to mock out sys.stdout 
for just a single test, and put it back again, without messy temporary vari - ables or leaking 
mocked-out state between test cases. Consider, as an example, the following function ina 
module mymodule: 


# mymodule.py 


def urlprint(protocol, host, domain): 
url = ‘{}://Q.{} format(protocol, host, domain) print(url) 


The built-in print function, by default, sends output to sys.stdout. In order to test that 
output is actually getting there, you can mock it out using a stand-in object, and then make 
assertions about what happened. Using the unittest.mock module’s patch() method makes 
it convenient to replace objects only within the context of a running test, returning things 
to their original state immediately after the test is complete. Here’s the test code for 
mymodule: 


from io import StringlO from unittest import TestCase from unittest.mock import patch 
import mymodule 


class TestURLPrint(TestCase): 
def test_url_gets_to_stdout(self): 
protocol = ‘http’ host = ‘www’ domain = ‘example.com’ expected_url = ‘{}://{}. 
Qn’format(protocol, host, domain) 


with patch(‘sys.stdout’, new=StringlO()) as fake_out: 
mymodule.urlprint(protocol, host, domain) self.assertEqual(fake_out.getvalue(), 
expected_url) 


讨论 


The urlprint() function takes three arguments, and the test starts by setting up dummy 
arguments for each one. The expected_url variable is set to a string containing the expected 
output. To run the test, the unittest.mock.patch() function is used as a context manager to 
replace the value of sys.stdout with a StringlO object as a substitute. The fake_out variable 


is the mock object that’s created in this process. This can be used inside the body of the with 
statement to perform various checks. When the with statement com - pletes, patch 
conveniently puts everything back the way it was before the test ever ran. It’s worth noting 
that certain C extensions to Python may write directly to standard output, bypassing the 
setting of sys.stdout. This recipe wont help with that scenario, but it should work fine with 
pure Python code (if you need to capture I/O from such C extensions, you can do it by 
opening atemporary file and performing various tricks involving file descriptors to have 
standard output temporarily redirected to that file). More information about capturing IO 
in a string and StringlO objects can be found in Recipe 5.6. 


14.2 在 单元 测试 中 给 对 象 打 补 丁 
问题 
Yourewriting unit tests and need to apply patches to selected objects in orderto make 


assertions about how they were used in thetest (e.g.,assertions about being called with 
certain parameters, access to selected attributes, etc.). 


The unittest.mock.patch() function can be used to help with this problem. It’s a little 
unusual, but patch() can be used as a decorator, a context manager, or stand-alone. For 
example, here’s an example of how it’s used as a decorator: 
from unittest.mock import patch import example 
@patch(‘example.func) def test 1(x, mock_func): 

example.func(x) # Uses patched example.func mock_func.assert_called_with(x) 


It can also be used as a context manager: 


with patch(‘example.func’) as mock_func: 
example.func(x) # Uses patched example.func mock_func.assert_called_with(x) 


Last, but not least, you can use it to patch things manually: 


p = patch(‘example.func’?) mock_func = p.start() example.func(x) 
mock_func.assert_called_with(x) p.stop() 


If necessary, you can stack decorators and context managers to patch multiple objects. For 
example: 


@patch(‘example.func1’) @patch(‘example.func2’) @patch(‘example.func3’) def 
test 1(mock1, mock2, mock3): 


def test2(): 
with patch(‘example.patch1’) as mock1, 
patch(‘example.patch2’) as mock2, patch(‘example.patch3’) as mock3: 


patch() works by taking an existing object with the fully qualified name that you pro - vide 
and replacing it with a new value. The original value is then restored after the completion of 
the decorated function or context manager. By default, values are replaced with MagicMock 
instances. For example: 


>>> xX = 42 
>>> with patch('__main__.x'): 
print(x) 


<MagicMock name='x' id='4314230032'> 
>>> X 

42 

>>> 


However, you can actually replace the value with anything that you wish by supplying it as a 
second argument to patch(): 


>>> x 

42 

>>> with patch('_ main__.x', ‘patched_value'): 
print(x) 


patched_value 
>>> X 

42 

>>> 


The MagicMock instances that are normally used as replacement values are meant to mimic 
callables and instances. They record information about usage and allow you to make 
assertions. For example: 


>>> from unittest.mock import MagicMock 
>>> m = MagicMock(return_value = 10) 
>>> m(1, 2, debug=True) 
10 
>>> m.assert_called_with(1, 2, debug=True) 
>>> m.assert_called_with(1, 2) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File ".../unittest/mock.py", line 726, in assert_called_with 

raise AssertionError(msg) 

AssertionError: Expected call: mock(1, 2) 
Actual call: mock(1, 2, debug=True) 
>>> 


>>> m.upper.return_value = ‘HELLO’ 
>>> m.upper('hello') 

"HELLO 

>>> assert m.upper.called 


>>> m.split.return_value = ['hello', ‘world’ ] 
>>> m.split('hello world’) 

['hello', ‘world'] 

>>> m.split.assert_called_with( ‘hello world') 
>>> 


>>> mE 'blah' ] 

<MagicMock name='mock. _getitem__()' id='4314412048'> 
>>> m.__getitem__.called 

True 

>>> m.__getitem__.assert_called_with('blah' ) 

>>> 


Typically, these kinds of operations are carried out in a unit test. For example, suppose you 
have some function like this: 


# example.py from urllib.request import urlopen import csv 


def dowprices(): 
u = urlopen(‘http://finance.yahoo.com/d/quotes.csv?s=@* DJI&f=sl1') lines = 


(line.decode(‘utf-8’) for line in u) rows = (row for row in csv.reader(lines) if len(row) == 2) 
prices = { name:float(price) for name, price in rows } return prices 


Normally, this function uses urlopen() to go fetch data off the Web and parse it. To unit test 
it, you might want to give it a more predictable dataset of your own creation, however. 
Here’s an example using patching: 


import unittest from unittest.mock import patch import io import example 
sample_data = io.ByteslO(b*“IBM”,91.1r “AA”,13.25r “MSFT”,27.72r r“) 


class Tests(unittest. TestCase): 
@patch(‘example.urlopen’, return_value=sample_data) def test_dowprices(self, 


mock_urlopen): 
p = example.dowprices() self.assertTrue(mock_urlopen.called) self.assertEqual(p, 
{‘IBM’: 91.1, 
‘AA’: 13.25, ‘MSFT’ : 27.72}) 


了 


if name_==‘_main_’: 
unittest.main() 


In this example, the urlopen() function in the example module is replaced with a mock 
object that returns a Bytes|O() containing sample data as a substitute. An important but 
subtle facet of this test is the patching of example.urlopen instead of urllib.request.urlopen. 
When you are making patches, you have to use the names as they are used in the code being 
tested. Since the example code uses from urllib.re quest import urlopen, the urlopen() 
function used by the dowprices() function is actually located in example. This recipe has 
really only given avery small taste of what’s possible with the uni ttest.mock module. The 
official documentation is a must-read for more advanced features. 





14.3 在 单元 测试 中 测试 异常 情况 
问题 


You want to write a unit test that cleanly tests if an exception is raised. 


To test for exceptions, use the assertRaises() method. For example, if you want to test that a 
function raised a ValueError exception, use this code: 


import unittest 
# Asimple function to illustrate def parse_int(s): 
return int(s) 


class TestConversion(unittest.TestCase): 
def test_bad_int(self): 
self.assertRaises(ValueError, parse_int, ‘N/A’) 


If you need to test the exception’s value in some way, then a different approach is needed. 
For example: 


import errno 


class TestlO(unittest. TestCase): 
def test_file_not_found(self): 
try: 
f = open(‘/file/not/found’) 


except lOError as e: 
self.assertEqual(e.errno, errno.ENOENT) 


else: 
self.fail(‘lOError not raised’) 


讨论 


The assertRaises() method provides a convenient way to test for the presence of an 
exception. A common pitfall is to write tests that manually try to do things with excep - 
tions on their own. For instance: 


class TestConversion(unittest.TestCase): 
def test_bad_int(self): 
try: 
r= parse _int(‘N/A’) 
except ValueError as e: 
self.assertEqual(type(e), ValueError) 


The problem with such approaches is that it is easy to forget about corner cases, such as 
that when no exception is raised at all. To do that, you need to add an extra check for that 
situation, as shown here: 


class TestConversion(unittest.TestCase): 
def test_bad_int(self): 
try: 


r= parse_int(‘N/A’) 


except ValueError as e: 
self.assertEqual(type(e), ValueError) 


else: 
self.fail(‘ValueError not raised’) 


The assertRaises() method simply takes care of these details, so you should prefer to use it. 
The one limitation of assertRaises() is that it doesn’t provide a means for testing the value 
of the exception object that’s created. To do that, you have to manually test it, as shown. 
Somewhere in between these two extremes, you might consider using the as 
sertRaisesRegex() method, which allows you to test for an exception and perform a regular 
expression match against the exception’s string representation at the same time. For 
example: 


class TestConversion(unittest.TestCase): 
def test_bad_int(self): 
self.assertRaisesRegex(ValueError, ‘invalid litera 
parse_int, ‘N/A’ 


x?) 
Is" 


A little-known fact about assertRaises() and assertRaisesRegex() is that they can also be 
used as context managers: 


class TestConversion(unittest.TestCase): 
def test_bad_int(self): 
with self.assertRaisesRegex(ValueError, ‘invalid literal .*’): 
r= parse_int(‘N/A’) 


This form can be useful if your test involves multiple steps (e.g., setup) besides that of 
simply executing a callable. 





14.4 将 测试 输出 用 日 志 记 录 到 文件 中 
问题 


You want the results of running unit tests written to a file instead of printed to standard 
output. 


Avery common technique for running unit tests is to include a small code fragment like this 
at the bottom of your testing file: 


import unittest 


class MyTest(unittest. TestCase): 


了 


if name_==‘_main_’: 
unittest.main() 


This makes the test file executable, and prints the results of running tests to standard 
output. If you would like to redirect this output, you need to unwind the main() call a bit and 
write your own main() function like this: 


import sys def main(out=sys.stderr, verbosity=2): 
loader = unittest.TestLoader() suite = 


loader.loadTestsFromModule(sys.modules[_name_]) 
unittest.TextTestRunner(out,verbosity=verbosity).run(suite) 


if name_==‘_main_’: 
with open(‘testing.out’, ‘w’) as f: 
main(f) 
讨论 


The interestingthing about this recipeis not so much thetask of getting test results 
redirected to afile,butthe factthat doing so exposes some notable inner workings ofthe 
unittest module. At a basic level, the unittest module works by first assembling a test suite. 
This test suite consists of the different testing methods you defined. Once the suite has 
been assembled, the tests it contains are executed. 


These two parts of unit testing are separate from each other. The unittest.TestLoad er 
instance created in the solution is used to assemble a test suite. The loadTestsFrom 
Module() is one of several methods it defines to gather tests. In this case, it scans a module 
for TestCase classes and extracts test methods from them. If you want some - thing more 
fine-grained, the loadTestsFromTestCase() method (not shown) can be used to pull test 
methods from an individual class that inherits from TestCase. The TextTestRunner class is 
an example of a test runner class. The main purpose of this class is to execute the tests 
contained in a test suite. This class is the same test runner that sits behind the 
unittest.main() function. However, here we're giving it a bit of low-level configuration, 
including an output file and an elevated verbosity level. Although this recipe only consists 
of a few lines of code, it gives a hint as to how you might further customize the unittest 
framework. To customize how test suites are assembled, you would perform various 
operations using the TestLoader class. To cus - tomize how tests execute, you could make 


custom test runner classes that emulate the functionality of TextTestRunner. Both topics 
are beyond the scope of what can be cov - ered here. However, documentation for the 
unittest module has extensive coverage of the underlying protocols. 


14.5 包 略 或 者 期 望 测试 失败 
问题 


Youwantto skip or mark selected tests as an anticipated failure in your unit tests. 


Theunittest module has decorators that can be applied to selected test methods to control 
their handling.Forexample: 


import unittest import os import platform 


class Tests(unittest. TestCase): 
def test_O(self): 
self.assertTrue(True) 


@unittest.skip(‘skipped test’) def test_1(self): 


self.fail(‘should have failed!’) 


@unittest.skipIf(os.name==’posix’, ‘Not supported on Unix’) def test_2(self): 


import winreg 


@unittest.skipUnless(platform.system() == ‘Darwin’, ‘Mac specific test’) def test_3(self): 


self.assertTrue(True) 


@unittest.expectedFailure def test_4(self): 


self.assertEqual(2+2, 5) 


‘ I 


if name_==‘_main_’: 
unittest.main() 


If you run this code on a Mac, you'll get this output: 


bash % python3 testsample.py -v test_O (__main_.Tests) ...ok test_1 (__main_.Tests) ... 
skipped ‘skipped test’ test 2( main_.Tests) ... skipped ‘Not supported on Unix’ test_3 
(_ main_.Tests) ... ok test_4 (__main_.Tests) ... expected failure 


Ran 5 tests in 0.002s 


OK (skipped=2, expected failures=1) 


The skip() decorator can be used to skip over a test that you don’t want to run at all. skiplf() 
and skipUnless() can be a useful way to write tests that only apply to certain platforms or 
Python versions, or which have other dependencies. Use the @expected Failure decorator 
to mark tests that are known failures, but for which you don’t want the test framework to 
report more information. The decorators for skipping methods can also be applied to entire 
testing classes. For example: 


@unittest.skipUnless(platform.system() == ‘Darwin’, ‘Mac specific tests’) class 
DarwinTests(unittest.TestCase): 


14.6 处 理 多 个 异常 
问题 


You have a piece of code that can throw any of several different exceptions, and you need to 
account for all of the potential exceptions that could be raised without creating duplicate 
code or long, meandering code passages. 


If you can handle different exceptions all using a single block of code, they can be grouped 
together in a tuple like this: 


try: 
client_obj.get_url(url) 


except (URLError, ValueError, SocketTimeout): 
client_obj.remove_url(url) 


In the preceding example, the remove_url() method will be called if any one of the listed 
exceptions occurs. If, on the other hand, you need to handle one of the exceptions 
differently, put it into its own except clause: 


try: 
client_obj.get_url(url) 


except (URLError, ValueError): 
client_obj.remove_url(url) 


except SocketTimeout: 
client_obj.handle_url_timeout(url) 


Many exceptions are grouped into an inheritance hierarchy. For such exceptions, you can 
catch all of them by simply specifying a base class. For example, instead of writing code like 
this: 


try: 
f = open(filename) 


except (FileNotFoundError, PermissionError): 


you could rewrite the except statement as: 
try: 
f = open(filename) 


except OSError: 


This works because OSError is a base class that’s common to both the FileNotFound 
Errorand PermissionError exceptions. 


Although it’s not specific to handling multiple exceptions per se, it’s worth noting that you 
can get a handle to the thrown exception using the as keyword: 


try: 
f = open(filename) 


except OSError as e: 
if e.errno == errno.ENOENT: 
logger.error(‘File not found’) 


elif e.errno == errno.EACCES: 
logger.error(‘Permission denied’) 


else: 
logger.error(‘Unexpected error: %d’, e.errno) 


In this example, the e variable holds an instance of the raised OSError. This is useful if you 
need to inspect the exception further, such as processing it based on the value of an 
additional status code. Be aware that except clauses are checked in the order listed and that 
the first match executes. It may be a bit pathological, but you can easily create situations 
where multiple except clauses might match. For example: 


>>> f = open('missing' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
FileNotFoundError: [Errno 2] No such file or directory: 'missing' 
>>> try: 
f = open('missing' ) 
。 except OSError: 
print('It failed’) 
. except FileNotFoundError: 
print('File not found’) 


It failed 
>>> 


Here the except FileNotFoundError clause doesn’t execute because the OSError is more 
general, matches the FileNotFoundError exception, and was listed first. As a debugging tip, 
if you're not entirely sure about the class hierarchy of a particular exception, you can quickly 
view it by inspecting the exception’s _mro_ attribute. For example: 


>>> FileNotFoundError.__mro__ 

(<class 'FileNotFoundError'>, <class ‘'OSError'>, <class ‘'Exception'>, 
<class 'BaseException'>, <class ‘object'>) 

>>> 


Any one of the listed classes up to BaseException can be used with the except statement. 





14.7 捕获 所 有 异常 
问题 


You want to write code that catches all exceptions. 


To catch all exceptions, write an exception handler for Exception, as shown here: 
try: 


except Exception as e: 
.. log(‘Reason:’, e) # Important! 


This will catch all exceptions save SystemExit, KeyboardInterrupt, and GeneratorEx it. If 
you also want to catch those exceptions, change Exception to BaseException. 


讨论 


Catching all exceptions is sometimes used as a crutch by programmers who cant re - 
member all of the possible exceptions that might occur in complicated operations. As such, 
it is also a very good way to write undebuggable code if you are not careful. Because of this, 
if you choose to catch all exceptions, it is absolutely critical to log or report the actual 
reason for the exception somewhere (e.g. log file, error message print - ed to screen, etc.). If 
you don’t do this, your head will likely explode at some point. Consider this example: 


def parse_int(s): 
try: 
n = int(v) 


except Exception: 
print(“Couldn’t parse”) 


If you try this function, it behaves like this: 


>>> parse_int('n/a') 
Couldn't parse 

>>> parse_int('42') 
Couldn't parse 

>>> 


At this point, you might be left scratching your head as to why it doesn’t work. Now 
suppose the function had been written like this: 


def parse_int(s): 
try: 
n =int(v) 


except Exception as e: 
print(“Couldn’t parse”) print(‘Reason:’, e) 


In this case, you get the following output, which indicates that a programming mistake has 
been made: 


>>> parse_int('42') 

Couldn't parse 

Reason: global name 'v' is not defined 
>>> 


All things being equal, it’s probably better to be as precise as possible in your exception 
handling. However, if you must catch all exceptions, just make sure you give good di - 
agnostic information or propagate the exception so that cause doesn’t get lost. 





14.8 创建 自 定义 异常 
问题 


You're building an application and would like to wrap lower-level exceptions with cus - 
tom ones that have more meaning in the context of your application. 


解决 方案 


Creating new exceptions is easy—just define them as classes that inherit from Excep tion 
(or one of the other existing exception types if it makes more sense). For example, if you are 
writing code related to network programming, you might define some custom exceptions 
like this: 


class NetworkError(Exception): 
pass 


class HostnameError(NetworkError): 
pass 


class TimeoutError(NetworkError): 
pass 


class ProtocolError(NetworkError): 

pass 
Users could then use these exceptions in the normal way. For example: 
try: 

msg = s.recv() 


except TimeoutError as e: 


except ProtocolError as e: 


Custom exception classes should almost always inherit from the built-in Exception class, or 
inherit from some locally defined base exception that itself inherits from Ex ception. 
Although all exceptions also derive from BaseException, you should not use this as a base 
class for new exceptions. BaseException is reserved for system-exiting exceptions, such as 
KeyboardInterrupt or SystemExit, and other exceptions that should signal the application 
to exit. Therefore, catching these exceptions is not the 


intended use case. Assuming you follow this convention, it follows that inheriting from 
BaseException causes your custom exceptions to not be caught and to signal anim - 
minent application shutdown! Having custom exceptions in your application and using 
them as shown makes your application code tell amore coherent story to whoever may 
need to read the code. One design consideration involves the grouping of custom 
exceptions via inheritance. In complicated applications, it may make sense to introduce 
further base classes that group different classes of exceptions together. This gives the user 
a choice of catching a nar - rowly specified error, such as this: 


try: 
s.send(msg) 


except ProtocolError: 


It also gives the ability to catch a broad range of errors, such as the following: 


try: 
s.send(msg) 


except NetworkError: 


If you are going to define a new exception that overrides the _init_() method of Exception, 
make sure you always call Exception._init__() with all of the passed arguments. For 
example: 


class CustomError(Exception): 
def _ init_(self, message, status): 
super()._init__(message, status) self.message = message self.status = status 


This might look a little weird, but the default behavior of Exception is to accept all 
arguments passed and to store them in the .args attribute as a tuple. Various other libraries 
and parts of Python expect all exceptions to have the .args attribute, so if you skip this step, 
you might find that your new exception doesn’t behave quite right in certain contexts. To 
illustrate the use of .args, consider this interactive session with the built-in RuntimeError 
exception, and notice how any number of arguments can be used with the raise statement: 


>>> try: 
raise RuntimeError('‘It failed’) 
. except RuntimeError as e: 
print(e.args) 


(‘It failed',) 
>>> try: 
raise RuntimeError('It failed', 42, 'spam') 
. except RuntimeError as e: 


 print(e.args) ... (‘It failed’, 42, ‘spam’) >>> 


For more information on creating your own exceptions, see the Python documentation. 


14.9 捕获 寞 第 后 抛 出 为 外 的 异常 
问题 


You want to raise an exception in response to catching a different exception, but want to 
include information about both exceptions in the traceback. 


To chain exceptions, use the raise from statement instead of a simple raise statement. This 
will give you information about both errors. For example: 


>>> def example(): 
try: 
int('N/A‘ ) 
except ValueError as e: 
raise RuntimeError('A parsing error occurred’) frome... 
>>> 
example() 
Traceback (most recent call last): 
File "<stdin>", line 3, in example 
ValueError: invalid literal for int() with base 10: 'N/A' 


The above exception was the direct cause of the following exception: 


Traceback (most recent call last): 
File “<stdin>”, line 1, in <module> File “<stdin>”, line 5, in example 


RuntimeError: A parsing error occurred >>> 


As you can see in the traceback, both exceptions are captured. To catch such an excep - 
tion, you would use a normal except statement. However, you can look at the _cause__ 
attribute of the exception object to follow the exception chain should you wish. For 
example: try: 


example() 


except RuntimeError as e: 
print(“It didn’t work:”, e) 


if e.__cause_: 
print(‘Cause:’, e._cause_) 


An implicit form of chained exceptions occurs when another exception gets raised in - side 
an except block. For example: 


>>> def example2(): 
try: 
int('N/A') 
except ValueError as e: 
print("Couldn't parse:", err) 


>>> 
>>> example2() 
Traceback (most recent call last): 
File "<stdin>", line 3, in example2 
ValueError: invalid literal for int() with base 10: 'N/A' 


During handling of the above exception, another exception occurred: 


Traceback (most recent call last): 
File “<stdin>”, line 1, in <module> File “<stdin>”, line 5, in example2 


NameError: global name ‘err’ is not defined >>> 


In this example, you get information about both exceptions, but the interpretation is a bit 
different. In this case, the NameError exception is raised as the result of a program - ming 
error, not in direct response to the parsing error. For this case, the _cause_ attribute of an 
exception is not set. Instead, a_context__ attribute is set to the prior exception. If, for some 
reason, you want to suppress chaining, use raise from None: 


>>> def example3(): 
try: 
int('N/A') 
except ValueError: 
raise RuntimeError('A parsing error occurred') from None... 
>>> 

example3() 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 5, in example3 

RuntimeError: A parsing error occurred 

>>> 


讨论 


In designing code, you should give careful attention to use of the raise statement inside of 
other except blocks. In most cases, such raise statements should probably be changed to 
raise from statements. That is, you should prefer this style: 


try: 


except SomeException as e: 
raise DifferentException() from e 


The reason for doing this is that you are explicitly chaining the causes together. That is, the 
DifferentException is being raised in direct response to getting a SomeExcep tion. This 
relationship will be explicitly stated in the resulting traceback. If you write your code in the 
following style, you still get a chained exception, but it’s often not clear if the exception 
chain was intentional or the result of an unforeseen programming error: 


try: 


except SomeException: 
raise DifferentException() 


When you use raise from, you’re making it clear that you meant to raise the second 
exception. Resist the urge to suppress exception information, as shown in the last example. 
Al - though suppressing exception information can lead to smaller tracebacks, it also dis - 
cards information that might be useful for debugging. All things being equal, it’s often best 
to keep as much information as possible. 


14.10 重新 抛 出 最 后 的 异常 
问题 


You caught an exception in an except block, but now you want to reraise it. 


解决 方案 
Simply use the raise statement all by itself. For example: 


>>> def example(): 
try: 
int('N/A') 
except ValueError: 
print("Didn't work") 
raise 


>>> example() 
Didn't work 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in example 
ValueError: invalid literal for int() with base 10: 'N/A' 
>>> 


This problem typically arises when you need to take some kind of action in response to an 
exception (e.g., logging, cleanup, etc.), but afterward, you simply want to propagate the 
exception along. A very common use might be in catch-all exception handlers: 


try: 


except Exception as e: 
# Process exception information in some way... 


# Propagate the exception raise 


14.11 输出 警告 信息 
问题 


You want to have your program issue warning messages (e.g., about deprecated features or 
usage problems). 


To have your program issue a warning message, use the warnings.warn() function. For 
example: 


import warnings 


def func(x, y, logfile=None, debug=False): 
if logfile is not None: 
warnings.warn(‘logfile argument deprecated’, DeprecationWarning) 


The arguments to warn() are a warning message along with a warning class, which is 
typically one of the following: UserWarning, DeprecationWarning, SyntaxWarning, 
RuntimeWarning, ResourceWarning, or FutureWarning. The handling of warnings depends 
on how you have executed the interpreter and other configuration. For example, if you run 
Python with the -W all option, you'll get output such as the following: 


bash % python3 -W all example.py example.py:5: DeprecationWarning: logfile 
argument is deprecated 


warnings.warn(‘logfile argument is deprecated’, DeprecationWarning) 


Normally, warnings just produce output messages on standard error. If you want to turn 
warnings into exceptions, use the -W error option: 


bash % python3 -W error example.py Traceback (most recent call last): 


File “example.py”, line 10, in <module> 
func(2, 3, logfile=’log.txt’) 


File “example.py”, line 5, in func 
warnings.warn(‘logfile argument is deprecated’, DeprecationWarning) 


DeprecationWarning: logfile argument is deprecated bash % 


Issuing a warning message is often a useful technique for maintaining software and 
assisting users with issues that don’t necessarily rise to the level of being a full-fledged 
exception. For example, if you’re going to change the behavior of a library or framework, you 
can start issuing warning messages for the parts that you’re going to change while still 
providing backward compatibility for a time. You can also warn users about prob - lematic 
usage issues in their code. As another example of a warning in the built-in library, here is an 
example of a warning message generated by destroying a file without closing it: 


>>> import warnings 

>>> warnings.simplefilter('always') 

>>> f = open('/etc/passwd' ) 

>>> del f 

__main__:1: ResourceWarning: unclosed file <_io.TextIOWrapper name='/etc/passwd' 
mode='r' encoding='UTF-8'> 

>>> 


By default, not all warning messages appear. The -W option to Python can control the 
output of warning messages. -W all will output all warning messages, -W ignore ignores all 
warnings, and -W error turns warnings into exceptions. As an alternative, you can can use 
the warnings.simplefilter() function to control output, as just shown. An argument of always 
makes all warning messages appear, ignore ignores all warnings, and error turns warnings 
into exceptions. For simple cases, this is all you really need to issue warning messages. The 
warnings module provides a variety of more advanced configuration options related to the 
fil - tering and handling of warning messages. See the Python documentation for more 
information. 


14.12 调试 基本 的 程序 崩 演 错误 


问题 


Your program is broken and you'd like some simple strategies for debugging it. 


If your program is crashing with an exception, running your program as pythons -i 
someprogram.py can be a useful tool for simply looking around. The -i option starts an 
interactive shell as soon as a program terminates. From there, you can explore the 
environment. For example, suppose you have this code: 


# sample.py 


def func(n): 
returnn+ 10 


func(‘Hello’) 


Running python3 -i produces the following: 


bash % python3 -i sample.py Traceback (most recent call last): 


File “sample.py”, line 6, in <module> 
func(‘Hello’) 


File “sample.py”, line 4, in func 
return n+ 10 


TypeError: Cant convert ‘int’ object to str implicitly >>> func(10) 20 >>> 


If you don’t see anything obvious, a further step is to launch the Python debugger after a 
crash. For example: 


>>> import pdb 
>>> pdb.pm() 
> sample.py(4)func() 
-> return n + 10 
(Pdb) w 

sample. py(6)<module>() 
-> func('Hello') 
> sample.py(4)func() 
-> return n + 10 
(Pdb) print n 
"Hello' 
(Pdb) q 
>>> 


If your code is deeply buried in an environment where it is difficult to obtain an inter - 
active shell (e.g., in a server), you can often catch errors and produce tracebacks yourself. 
For example: 


import traceback import sys 


try: 
func(arg) 


except: 
print(‘“**** AN ERROR OCCURRED ****’) traceback.print_exc(file=sys.stderr) 


If your program isn’t crashing, but it’s producing wrong answers or you're mystified by how 
it works, there is often nothing wrong with just injecting a few print() calls in places of 
interest. However, if you're going to do that, there are a few related techniques of interest. 
First, the traceback.print_stack() function will create a stack track of your program 
immediately at that point. For example: 


>>> def sample(n): 
if n > @: 
sample(n-1) 
else: 
traceback.print_stack(file=sys.stderr) 


>>> sample(5) 


File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 5, in sample 


>>> 


Alternatively, you can also manually launch the debugger at any point in your program 
using pdb.set_trace() like this: 


import pdb 


def func(arg): 
.. pdb.set_trace() ... 


This can be a useful technique for poking around in the internals of alarge program and 
answering questions about the control flow or arguments to functions. For instance, once 
the debugger starts, you can inspect variables using print or type a command such as w to 
get the stack traceback. 


Don’t make debugging more complicated than it needs to be. Simple errors can often be 
resolved by merely knowing how to read program tracebacks (e.g., the actual error is usually 
the last line of the traceback). Inserting a few selected print() functions in your code can also 
work well if you’re in the process of developing it and you simply want some diagnostics 
(just remember to remove the statements later). A common use of the debugger is to 
inspect variables inside a function that has crashed. Knowing how to enter the debugger 
after such acrash has occurred is a useful skill to know. Inserting statements such as 
pdb.set_trace() can be useful if you’re trying to unravel an extremely complicated program 
where the underlying control flow isn’t obvious. Essentially, the program will run until it hits 
the set_trace() call, at which point it will immediately enter the debugger. From there, you 
can try to make more sense of it. If you’re using an IDE for Python development, the IDE will 
typically provide its own debugging interface on top of or in place of pdb. Consult the 
manual for your IDE for more information. 


14.13 给 你 的 程序 做 基准 测试 
问题 


You would like to find out where your program spends its time and make timing 
measurements. 


If you simply want to time your whole program, it’s usually easy enough to use something 
like the Unix time command. For example: 


bash % time python3 someprogram.py real Om13.937s user Om12.162s sys Om0.098s bash 
% 


On the other extreme, if you want a detailed report showing what your program is doing, 
you can use the cProfile module: 


bash % python3 -m cProfile someprogram.py 
859647 function calls in 16.016 CPU seconds 


Ordered by: standard name 


ncalls tottime percall cumtime percall filename:lineno(function) 263169 0.080 0.000 
0.080 0.000 someprogram.py:16(frange) 


513 0.001 0.000 0.002 0.000 someprogram.py:30(generate_mandel) 


262656 0.194 0.000 15.295 0.000 someprogram.py:32(<genexpr >) 
10.036 0.036 16.077 16.077 someprogram.py:4(<module>) 


262144 15.021 0.000 15.021 0.000 someprogram.py:4(in_mandelbrot) 
1 0.000 0.000 0.000 0.000 os.py:746(urandom) 1 0.000 0.000 0.000 0.000 
png.py:1056(_readable) 1 0.000 0.000 0.000 0.000 png.py:1073(Reader) 1 
0.227 0.227 0.438 0.438 png.py:163(<module>) 


512 0.010 0.000 0.010 0.000 png.py:200(group) 


bash % 


More often than not, profiling your code lies somewhere in between these two extremes. 
For example, you may already know that your code spends most of its time in a few selected 
functions. For selected profiling of functions, a short decorator can be useful. For example: 


# timethis.py 


import time from functools import wraps 


def timethis(func): 
@wraps(func) def wrapper(*args, **kwargs): 


start = time.perf_counter() r = func(*args, **kwargs) end = time.perf_counter() 
print(‘{}.Q : {}? format(func._module_, func._name_, end - start)) return r 


return wrapper 


To use this decorator, you simply place it in front of a function definition to get timings from 
it. For example: 


>>> @timethis 
. def countdown(n): 
while n > 6: 
n -= 1 


>>> countdown(16666666 ) 
__main__.countdown : @.803001880645752 
>>> 


To time a block of statements, you can define a context manager. For example: 
from contextlib import contextmanager 
@contextmanager def timeblock(label): 
start = time.perf_counter() try: 
yield 


finally: 
end = time.perf_counter() print(‘{} : {}?.format(label, end - start)) 


Here is an example of how the context manager works: 


>>> with timeblock('counting'): 
n = 10000000 
while n > @: 
n -= 


counting : 1.5551159381866455 
>>> 


For studying the performance of small code fragments, the timeit module can be useful. For 
example: 


>>> from timeit import timeit 

>>> timeit('math.sqrt(2)', ‘import math' ) 
@.1432319980012835 

>>> timeit('sqrt(2)', ‘from math import sqrt’) 
0@.10836604500218527 

>>> 


timeit works by executing the statement specified in the first argument a million times and 
measuring the time. The second argument is a setup string that is executed to set up the 
environment prior to running the test. If you need to change the number of iterations, 
supply a number argument like this: 


>>> timeit('math.sqrt(2)', ‘import math’, number=10000000) 
1.434852126003534 

>>> timeit('sqrt(2)', ‘from math import sqrt', number=10000000) 
1.0270336690009572 

>>> 


讨论 


When making performance measurements, be aware that any results you getareap - 
proximations. The time.perf_counter() function used in the solution provides the highest- 
resolution timer possible on a given platform. However, it still measures wall- clock time, 
and can be impacted by many different factors, such as machine load. If you are interested in 
process time as opposed to wall-clock time, use time.pro cess_time() instead. For example: 


from functools import wraps def timethis(func): 
@wraps(func) def wrapper(*args, **kwargs): 


start = time.process_time() r = func(*args, **kwargs) end = time.process_time() 
print(‘{}.Q : {}? format(func._module_, func._name_, end - start)) return r 


return wrapper 


Last, but not least, if you’re going to perform detailed timing analysis, make sure to read the 
documentation for the time, timeit, and other associated modules, so that you have an 
understanding of important platform-related differences and other pitfalls. See Recipe 
13.13 for a related recipe on creating a stopwatch timer class. 


14.14 让 你 的 程序 跑 的 更 快 
问题 


Your program runs too slow and you'd like to speed it up without the assistance of more 
extreme solutions, such as C extensions or a just-in-time (JIT) compiler. 


While the first rule of optimization might be to “not do it,” the second rule is almost 
certainly “don’t optimize the unimportant.” To that end, if your program is running slow, 
you might start by profiling your code as discussed in Recipe 14.13. More often than not, 
you'll find that your program spends its time in a few hotspots, such as inner data 
processing loops. Once you've identified those locations, you can use the no-nonsense 
techniques presented in the following sections to make your program run faster. 


Use functions A lot of programmers start using Python as a language for writing simple 
scripts. When writing scripts, it is easy to fall into a practice of simply writing code with very 
little structure. For example: 


# somescript.py 


import sys import csv 


with open(sys.argv[1]) as f: 
for row in csv.reader(f): 


# Some kind of processing ... 


A little-known fact is that code defined in the global scope like this runs slower than code 
defined in a function. The speed difference has to do with the implementation of local 
versus global variables (operations involving locals are faster). So, if you want to make the 
program run faster, simply put the scripting statements in a function: 


# somescript.py import sys import csv 


def main(filename): 
with open(filename) as f: 
for row in csv.reader(f): 
# Some kind of processing... 


main(sys.argv[1]) 


The speed difference depends heavily on the processing being performed, but in our 
experience, soeedups of 15-30% are not uncommon. 


Selectively eliminate attribute access Every use of the dot (.) operator to access attributes 
comes with a cost. Under the covers, this triggers special methods, such as __ getattribute_() 
and _ getattr_(), which often lead to dictionary lookups. You can often avoid attribute 
lookups by using the from module import name form of import as well as making selected 
use of bound methods. To illustrate, consider the following code fragment: 


import math 


def compute_roots(nums): 
result = [] for n in nums: 


result.append(math.sqrt(n)) 
return result 
# Test nums = range( 1000000) for n in range(100): 
r = compute_roots(nums) 


When tested on our machine, this program runs in about 40 seconds. Now change the 
compute_roots() function as follows: 


from math import sqrt 
def compute_roots(nums): 
result = [] result_append = result.append for n in nums: 
result_append(sqrt(n)) 
return result 


This version runs in about 29 seconds. The only difference between the two versions of 
code is the elimination of attribute access. Instead of using math.sqrt(), the code uses sqrt(). 
The result.append() method is additionally placed into a local variable re sult_append and 
reused in the inner loop. However, it must be emphasized that these changes only make 
sense in frequently ex - ecuted code, such as loops. So, this optimization really only makes 
sense in carefully selected places. 


Understand locality of variables As previously noted, local variables are faster than global 
variables. For frequently ac - cessed names, speedups can be obtained by making those 
names as local as possible. For example, consider this modified version of the 
compute_roots() function just discussed: 


import math 


def compute_roots(nums): 
sqrt = math.sart result = [] result_append = result.append for n in nums: 


result_append(sqrt(n)) 


return result 


In this version, sqrt has been lifted from the math module and placed into a local variable. If 
you run this code, it now runs in about 25 seconds (an improvement over the previous 
version, which took 29 seconds). That additional speedup is due to a local lookup of sqrt 
being a bit faster than a global lookup of sqrt. Locality arguments also apply when working 
in classes. In general, looking up a value such as self.name will be considerably slower than 
accessing a local variable. In inner loops, it might pay to lift commonly accessed attributes 
into alocal variable. For example: 


# Slower class SomeClass: 
... def method (self): 


for x ins: 
op(self.value) 


# Faster class SomeClass: 
... def method (self): 
value = self.value for x in s: 
op(value) 


Avoid gratuitous abstraction Any time you wrap up code with extra layers of processing, 
such as decorators, prop - erties, or descriptors, you’re going to make it slower. As an 
example, consider this class: 


class A: 
def _ init_(self, x, y): 
self.x = x self.y = y 


@property def y(self): 


return self._y 


@y.setter def y(self, value): 


self._y = value 


Now, try a simple timing test: 


>>> from timeit import timeit 

>>> a = A(1,2) 

>>> timeit('a.x', ‘from __main__ import a') 
@.07817923510447145 

>>> timeit('a.y', ‘from __main__ import a') 
@.35766440676525235 

>>> 


As you can observe, accessing the property y is not just slightly slower than a simple 
attribute x, it’s about 4.5 times slower. If this difference matters, you should ask yourself if 
the definition of y as a property was really necessary. If not, simply get rid of it and go back 
to using a simple attribute instead. Just because it might be common for pro - grams in 
another programming language to use getter/setter functions, that doesn’t mean you 
should adopt that programming style for Python. 


Use the built-in containers Built-in data types such as strings, tuples, lists, sets, and dicts 
are all implemented in C, and are rather fast. If you’re inclined to make your own data 
structures as a replacement (e.g., linked lists, balanced trees, etc.), it may be rather difficult if 
not impossible to match the speed of the built-ins. Thus, you’re often better off just using 
them. 


Avoid making unnecessary data structures or copies Sometimes programmers get carried 
away with making unnecessary data structures when they just don’t have to. For example, 
someone might write code like this: 


values = [x for x in sequence] squares = [x*x for x in values] 

Perhaps the thinking here is to first collect a bunch of values into a list and then to start 
applying operations such as list comprehensions to it. However, the first list is com - 

pletely unnecessary. Simply write the code like this: 

squares = [x*x for x in sequence] 

Related to this, be on the lookout for code written by programmers who are overly paranoid 
about Python’s sharing of values. Overuse of functions such as copy.deep copy() may bea 


sign of code that’s been written by someone who doesn’t fully under - stand or trust 
Python’s memory model. In such code, it may be safe to eliminate many of the copies. 


讨论 


Before optimizing, it’s usually worthwhile to study the algorithms that you’re using first. 
You'll get a much bigger speedup by switching to an O(n log n) algorithm than by trying to 
tweak the implementation of an an O(n**2) algorithm. If you’ve decided that you still must 
optimize, it pays to consider the big picture. As a general rule, you don’t want to apply 
optimizations to every part of your program, because such changes are going to make the 
code hard to read and understand. Instead, focus only on known performance bottlenecks, 
such as inner loops. You need to be especially wary interpreting the results of micro- 
optimizations. For example, consider these two techniques for creating a dictionary: 


a={ 
‘name’: ‘AAPL’, ‘shares’ : 100, ‘price’ : 534.22 


b = dict(name=’AAPL’, shares=100, price=534.22) 


The latter choice has the benefit of less typing (you don’t need to quote the key names). 
However, if you put the two code fragments in a head-to-head performance battle, you'll 
find that using dict() runs three times slower! With this knowledge, you might be inclined to 
scan your code and replace every use of dict() with its more verbose al - ternative. 
However, a smart programmer will only focus on parts of a program where it might actually 
matter, such as an inner loop. In other places, the speed difference just isn’t going to matter 
at all. If, on the other hand, your performance needs go far beyond the simple techniques in 
this recipe, you might investigate the use of tools based on just-in-time (JIT) compilation 
techniques. For example, the PyPy project is an alternate implementation of the Python 


interpreter that analyzes the execution of your program and generates native machine code 
for frequently executed parts. It can sometimes make Python programs run an order of 
magnitude faster, often approaching (or even exceeding) the speed of code written in C. 
Unfortunately, as of this writing, PyPy does not yet fully support Python 3. So, that is 
something to look for in the future. You might also consider the Numba project. Numba is a 
dynamic compiler where you annotate selected Python functions that you want to optimize 
with a decorator. Those functions are then compiled into native machine code through the 
use of LLVM. It too can produce signficant perfor - mance gains. However, like PyPy, 
support for Python 3 should be viewed as somewhat experimental. Last, but not least, the 
words of John Ousterhout come to mind: “The best performance improvement is the 
transition from the nonworking to the working state.” Don’t worry about optimization until 
you need to. Making sure your program works correctly is usually more important than 
making it run fast (at least initially). 


第 十 五 章 : C 语 言 扩 展 


本 章 着 眼 于 从 Python 访问 C 代 码 的 问题 。 许 多 Python 内 置 库 是 用 C 写 的 ， 访 问 C 是 让 
Python 的 对 现 有 库 进 行 交 互 一 个 重要 的 组 成 部 分 。 这 也 是 一 个 当 你 面临 从 Python 2 到 
Python 3 扩展 代码 的 问题 。 虽 然 Python 提供 了 一 个 广泛 的 编程 API， 实 际 上 有 很 多 方法 来 
处 理 C 的 代码 。 相 比试 图 给 出 对 于 每 一 个 可 能 的 工具 或 技术 的 详细 参考 ， 我 么 采用 的 是 是 
集中 在 一 个 小 片段 的 C++ 代码 ， 以 及 一 些 有 代表 性 的 例子 来 展示 如 何 与 代码 交互 。 这 个 目 
标 是 提供 一 系列 的 编程 模板 ， 有 经 验 的 程序 员 可 以 扩展 自己 的 使 用 。 


















































这 里 是 我 们 将 在 大 部 分 秘籍 中 工作 的 代码 : 


/* sample.c */_method 
#include <math.h> 


/* Compute the greatest common divisor */ 
int gcd(int x, int y) { 


int g = y; 
while (x > 6) { 
8 = Xj 

x=y%x; 
y = 8; 

} 

return g; 


/* Test if (x@,y@) is in the Mandelbrot set or not */ 
int in_mandel(double x@, double yO, int n) { 
double x=0,y=0,xtemp; 
while (n > 6) { 
xtemp = x*x - y*y + x@; 
y = 2*x*y + yO; 
x = xtemp; 


n -= 1; 

if (x*x + y*y > 4) return ð; 
} 
return 1; 


/* Divide two numbers */ 

int divide(int a, int b, int *remainder) { 
int quot = a / b; 
*remainder = a % b; 
return quot; 


/* Average values in an array */ 
double avg(double *a, int n) { 
int i; 
double total = 0.0; 
for (i = ð; i < n; i++) { 
total += a[i]; 
} 


return total / n; 


/* A C data structure */ 

typedef struct Point { 
double x,y; 

} Point; 


/* Function involving a C data structure */ 
double distance(Point *p1, Point *p2) { 
return hypot(p1->x - p2->x, pl->y - p2->y); 


This code contains anumber of different C programming features. First, there are a few 
simple functions such as gcd() and is_mandel(). The divide() function is an example of a C 
function returning multiple values, one through a pointer argument. The avg() function 
performs a data reduction across a C array. The Point and distance() function involve C 
structures. 


For all of the recipes that follow, assume that the preceding code is found in a file named 
sample.c, that definitions are found in a file named sample.h and that it has been compiled 
into alibrary libsample that can be linked to other C code. The exact details of compilation 
and linking vary from system to system, but that is not the primary focus. It is assumed that 
if you’re working with C code, you’ve already figured that out. 


Contents: 


15.1 使 用 ctypes 访 问 C 代 码 
问题 


You have a small number of C functions that have been compiled into a shared library or 
DLL. You would like to call these functions purely from Python without having to write 
additional C code or using a third-party extension tool. 


解决 方案 


For small problems involving C code, it is often easy enough to use the ctypes module that 
is part of Python’s standard library. In order to use ctypes, you must first make sure the C 
code you want to access has been compiled into a shared library that is compatible with the 
Python interpreter (e.g., same architecture, word size, compiler, etc.). For the purposes of 
this recipe, assume that a shared library, libsample.so, has been created and that it contains 
nothing more than the code shown in the chapter introduction. Further assume that the 
libsample.so file has been placed in the same directory as the sample.py file shown next. To 
access the resulting library, you make a Python module that wraps around it, such as the 
following: # sample.py import ctypes import os 


# Try to locate the .so file in the same directory as this file file = ‘libsample.so’_path = 
os.pathjoin(*(os.path.split(_ file_)[:-1] + (_file,))) mod = ctypes.cdll.LoadLibrary(_path) 


# int gcd(int, int) gcd = __mod.gcd gcd.argtypes = (ctypes.c_int, ctypes.c_int) gcd.restype = 
ctypes.c_int 


# int in_mandel(double, double, int) in_mandel = _mod.in_mandel in_mandel.argtypes = 
(ctypes.c_double, ctypes.c_double, ctypes.c_int) in_mandel.restype = ctypes.c_int 


# int divide(int, int, int *) divide =_mod.divide _divide.argtypes = (ctypes.c_int, ctypes.c_int, 
ctypes.POINTER(ctypes.c_int)) divide.restype = ctypes.c_int 


def divide(x, y): 
rem = ctypes.c_int() quot = _divide(x, y, rem) 


return quot,rem.value 


# void avg(double *, int n) # Define a special type for the ‘double * argument class 
DoubleArrayType: 


def from_param(self, param): 
typename = type(param).__ name _ if hasattr(self, ‘from_‘ + typename): 


return getattr(self, ‘from_‘ + typename)(param) 


elif isinstance(param, ctypes.Array): 
return param 


else: 
raise TypeError(“Can’t convert %s” % typename) 


# Cast from array.array objects def from_array(self, param): 


if param.typecode != ‘d’: 
raise TypeError(‘must be an array of doubles’) 


ptr,_=param.buffer_info() return ctypes.cast(ptr, 
ctypes.POINTER(ctypes.c_double)) 


# Cast from lists/tuples def from_list(self, param): 

val = ((ctypes.c_double)*len(param))(*param) return val 
from_tuple = from_list 
# Cast from a numpy array def from_ndarray(self, param): 

return param.ctypes.data_as(ctypes.POINTER(ctypes.c_double)) 


DoubleArray = DoubleArrayType() avg =_mod.avg _avg.argtypes = (DoubleArray, 
ctypes.c_int) _avg.restype = ctypes.c_double 


def avg(values): 
return _avg(values, len(values)) 


# struct Point { } class Point(ctypes.Structure): 


_fields_=[(‘x’, ctypes.c_double), 
(‘y’, ctypes.c_double)] 


# double distance(Point *, Point *) distance = _mod.distance distance.argtypes = 
(ctypes.POINTER(Point), ctypes.POINTER(Point)) distance.restype = ctypes.c_double 


If all goes well, you should be able to load the module and use the resulting C functions. For 
example: 


>>> import sample 
>>> sample.gcd(35,42) 


>>> sample.in_mandel(@,0,500) 
>>> sample.in_mandel(2.0,1.0,500) 


>>> sample.divide(42,8) 
(5, 2) 
>>> sample.avg([1,2,3]) 


>>> p1 = sample.Point(1,2) 
>>> p2 = sample.Point(4,5) 
>>> sample.distance(p1, p2) 
4.242640687119285 

>>> 


There are several aspects of this recipe that warrant some discussion. The first issue 
concerns the overall packaging of C and Python code together. If you are using ctypes to 
access C code that you have compiled yourself, you will need to make sure that the shared 
library gets placed in a location where the sample.py module can find it. One possibility is to 
put the resulting .so file in the same directory as the supporting Python code. This is what’s 
shown at the first part of this recipe—sample.py looks at the _ file_ variable to see where it 
has been installed, and then constructs a path that points to alibsample.so file in the same 
directory. If the C library is going to be installed elsewhere, then you'll have to adjust the 
path accordingly. If the C library is installed as a standard library on your machine, you 
might be able to use the ctypes.util.find_library() function. For example: 


>>> from ctypes.util import find_library 
>>> find_library('m') 
"/usr/lib/libm.dylib' 

>>> find_library( ‘pthread’ ) 
‘/usr/lib/libpthread.dylib' 

>>> find_library('sample') 
"/usr/local/lib/libsample.so' 

>>> 


Again, ctypes won't work at all if it can’t locate the library with the C code. Thus, you'll need 
to spend a few minutes thinking about how you want to install things. Once you know 
where the C library is located, you use ctypes.cdll.LoadLibrary() to load it. The following 
statement in the solution does this where _path is the full pathname to the shared library: 


_mod = ctypes.cdll.LoadLibrary(_path) 


Once a library has been loaded, you need to write statements that extract specific sym - 
bols and put type signatures on them. This is what’s happening in code fragments such as 
this: 


# int in_mandel(double, double, int) in_mandel =_mod.in_mandel in_mandel.argtypes = 
(ctypes.c_double, ctypes.c_double, ctypes.c_int) in_mandel.restype = ctypes.c_int 


In this code, the .argtypes attribute is a tuple containing the input arguments to a function, 
and .restype is the return type. ctypes defines a variety of type objects (e.g., c_ double, c_int, 
c_ short, c float, etc.) that represent common C data types. Attach - ing the type signatures 
is critical if you want to make Python pass the right kinds of arguments and convert data 
correctly (if you don’t do this, not only will the code not work, but you might cause the 
entire interpreter process to crash). A somewhat tricky part of using ctypes is that the 
original C code may use idioms that don’t map cleanly to Python. The divide() function is a 
good example because it returns a value through one of its arguments. Although that’s a 
common C technique, it’s often not clear how it’s supposed to work in Python. For example, 
you can’t do anything straightforward like this: 


>>> divide = _mod.divide 
>>> divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTER(ctypes.c_int)) 
>>> x = 6 
>>> divide(10, 3, x) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ctypes.ArgumentError: argument 3: <class 'TypeError'>: expected LP_c_int 
instance instead of int 
>>> 


Even if this did work, it would violate Python’s immutability of integers and probably cause 
the entire interpreter to be sucked into a black hole. For arguments involving pointers, you 
usually have to construct a compatible ctypes object and pass it in like this: 


>>> x = ctypes.c_int() 
>>> divide(10, 3, x) 

3 

>>> x.value 

1 

>>> 


Here an instance of a ctypes.c_int is created and passed in as the pointer object. Unlike a 
normal Python integer, a c_int object can be mutated. The .value attribute can be used to 
either retrieve or change the value as desired. 


For cases where the C calling convention is “un-Pythonic,” it is common to write a small 
wrapper function. In the solution, this code makes the divide() function return the two 
results using a tuple instead: # int divide(int, int, int *) divide =_mod.divide _divide.argtypes 
= (ctypes.c_int, ctypes.c_int, ctypes.POINTER(ctypes.c_int)) divide.restype = ctypes.c_int 


def divide(x, y): 
rem = ctypes.c_int() quot =_divide(x,y,rem) return quot, rem.value 


The avg() function presents a new kind of challenge. The underlying C code expects to 
receive a pointer and a length representing an array. However, from the Python side, we 
must consider the following questions: What is an array? Is it a list? A tuple? An array from 
the array module? A numpy array? Is it all of these? In practice, a Python “array” could take 
many different forms, and maybe you would like to support multiple possibilities. The 
DoubleArrayType class shows how to handle this situation. In this class, a single method 
from_param() is defined. The role of this method is to take a single parameter and narrow it 
down to a compatible ctypes object (a pointer to a ctypes.c_double, in the example). Within 
from_param(), you are free to do anything that you wish. In the solution, the typename of 
the parameter is extracted and used to dispatch to a more specialized method. For example, 
if alist is passed, the typename is list and a method from_list() is invoked. For lists and 
tuples, the from_list() method performs a conversion to a ctypes array object. This looks a 
little weird, but here is an interactive example of converting a list to a ctypes array: 


>>> nums = [1, 2, 3] 

>>> a = (ctypes.c_double * len(nums))(*nums) 
>>> a 

<__main__.c_double Array 3 object at 0x10069cd40> 
>>> ale] 

1.0 

>>> a[1] 

2.0 

>>> a[2] 

340 

>>> 


For array objects, the from_array() method extracts the underlying memory pointer and 
casts it to a ctypes pointer object. For example: 


>>> import array 

>>> a = array.array('d',[1,2,3]) 

>>> a 

array('d', [1.0, 2.0, 3.0]) 

>>> ptr_ = a.buffer_info() 

>>> ptr 

4298687200 

>>> ctypes.cast(ptr, ctypes.POINTER(ctypes.c_double)) 
<__main__.LP_c_double object at 0x10069cd40> 

>>> 


The from_ndarray() shows comparable conversion code for numpy arrays. By defining the 
DoubleArrayType class and using it in the type signature of avg(), as shown, the function 
can accept a variety of different array-like inputs: 


>>> import sample 

>>> sample.avg([1,2,3]) 

2.0 

>>> sample.avg((1,2,3)) 

2.0 

>>> import array 

>>> sample.avg(array.array('d',[1,2,3])) 
2.0 

>>> import numpy 

>>> sample.avg(numpy.array([1.0,2.0,3.0])) 
2.0 

>>> 


The last part of this recipe shows how to work with a simple C structure. For structures, you 
simply define a class that contains the appropriate fields and types like this: 


class Point(ctypes.Structure): 
_fields_=[(‘x’, ctypes.c_double), 
(‘y’, ctypes.c_double)] 


Once defined, you can use the class in type signatures as well as in code that needs to 
instantiate and work with the structures. For example: 


>>> p1 = sample.Point(1,2) 
>>> p2 = sample.Point(4,5) 
>>> p1.x 

1.0 

>>> pl.y 

2.0 

>>> sample.distance(p1, p2) 
4.242640687119285 

>>> 


A few final comments: ctypes is a useful library to know about if all you’re doing is accessing 
a few C functions from Python. However, if you’re trying to access a large library, you might 
want to look at alternative approaches, such as Swig (described in Recipe 15.9) or Cython 
(described in Recipe 15.10). 


The main problem with a large library is that since ctypes isn’t entirely automatic, you'll 
have to spend a fair bit of time writing out all of the type signatures, as shown in the 
example. Depending on the complexity of the library, you might also have to write a large 
number of small wrapper functions and supporting classes. Also, unless you fully 
understand all of the low-level details of the C interface, including memory management 
and error handling, it is often quite easy to make Python catastrophically crash with a 
segmentation fault, access violation, or some similar error. As an alternative to ctypes, you 
might also look at CFFI. CFFI provides much of the same functionality, but uses C syntax 
and supports more advanced kinds of C code. As of this writing, CFFI is still a relatively new 
project, but its use has been growing rapidly. There has even been some discussion of 
including it in the Python standard library in some future release. Thus, it’s definitely 
something to keep an eye on. 


15.2 简单 的 C 扩 展 模块 
问题 


You want to write a simple C extension module directly using Python’s extension API and 
no other tools. 


解决 方案 


For simple C code, it is straightforward to make a handcrafted extension module. Asa 
preliminary step, you probably want to make sure your C code has a proper header file. For 
example, 


/* sample.h */ 
#include <math.h> 


extern int gcd(int, int); extern int in_mandel(double xO, double yO, int n); extern int 
divide(int a, int b, int *remainder); extern double avg(double *a, int n); 


typedef struct Point { 
double x,y; 


} Point; 

extern double distance(Point *p1, Point *p2); 

Typically, this header would correspond to a library that has been compiled separately. 
With that assumption, here is a sample extension module that illustrates the basics of 
writing extension functions: 

#include “Python.h #include “sample.h” 

/* int gcd(int, int) */ static PyObject *py_gcd(PyObject *self, PyObject *args) { 


int x, y, result; 


if (!PyArg_ParseTuple(args, ii”, &x, &y)) { 
return NULL; 


amen 


} result = gcd(x,y); return Py_BuildValue(‘“i”, result); 


/* int in_mandel(double, double, int) */ static PyObject *py_in_mandel(PyObject *self, 
PyObject *args) { 


double xO, yO; int n; int result; 


if (!PyArg_ParseTuple(args, “ddi”, &x0, &y0, &n)) { 
return NULL; 


} result = in_mandel(x0,yO,n); return Py_BuildValue(“i”, result); 


/* int divide(int, int, int *) */ static PyObject *py_divide(PyObject *self, PyObject *args) { 


int a, b, quotient, remainder; if (!PyArg_ParseTuple(args, “ii”, &a, &b)) { 


return NULL; 


} quotient = divide(a,b, &remainder); return Py_BuildValue(“(ii)”, quotient, remainder); 


/* Module method table */ static PYMethodDef SampleMethods[] = { 
{“ gcd”, py_gcd, METH_VARARGS, “Greatest common divisor’}, {“in_mandel”, 


py_in_mandel, METH_VARARGS, “Mandelbrot test”}, {“divide”, py_divide, 
METH_VARARGS, “Integer division”}, { NULL, NULL, O, NULL} 


/* Module structure */ static struct PYModuleDef samplemodule = { 


PyModuleDef_HEAD_INIT, 


“sample”, /* name of module / “A sample module”, / Doc string (may be NULL) / -1,/ Size 
of per-interpreter state or -1/ SampleMethods / Method table */ 


/* Module initialization function */ PPMODINIT_FUNC PyInit_sample(void) { 


return PyModule_Create(&samplemodule); 


For building the extension module, create a setup.py file that looks like this: 


# setup.py from distutils.core import setup, Extension 


setup(name=’sample’, 
ext_modules=[ 
Extension(‘sample’, 
[‘pysample.c’)], include_dirs = [‘/some/dir’], define_macros = [(‘FOO’,;1)], 
undef_macros = [‘BAR’], library_dirs = [‘/usr/local/lib’], libraries = [‘sample’] ) 


Now, to build the resulting library, simply use python3 buildlib.py build_ext - inplace. For 
example: 


bash % python3 setup.py build_ext -inplace running build_ext building ‘sample’ extension 
gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -O3 -Wall -Wstrict-prototypes 


-l/usr/local/include/python3.3m -c pysample.c -o build/temp.macosx- 10.6-x86_64- 
3.3/pysample.o 


gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6-x86_64-3.3/pysample.o 


-L/usr/local/lib -lsample -o sample.so 


bash % 


As shown, this creates a shared library called sample.so. When compiled, you should be able 
to start importing it as a module: 


>>> import sample 
>>> sample.gcd(35, 42) 


>>> sample.in_mandel(@, ©, 500) 


>>> sample.in_mandel(2.0, 1.0, 500) 


0 >>> sample.divide(42, 8) (5, 2) >>> 


If you are attempting these steps on Windows, you may need to spend some time fiddling 
with your environment and the build environment to get extension modules to build 
correctly. Binary distributions of Python are typically built using Microsoft Visual Studio. To 
get extensions to work, you may have to compile them using the same or compatible tools. 
See the Python documentation. 


讨论 


Before attempting any kind of handwritten extension,it is absolutely critical that you 
consult Python's documentation on “Extending and Embedding the Python Interpret - er’. 
Python’s C extension API is large, and repeating all of it here is simply not practical. 
However, the most important parts can be easily discussed. First, in extension modules, 
functions that you write are all typically written with a common prototype such as this: 


static PyObject *py_func(PyObject *self, PyObject *args) { 


PyObject is the C data type that represents any Python object. At a very high level, an 
extension function is a C function that receives a tuple of Python objects (in PyObject 
*args) and returns anew Python object as a result. The self argument to the function is 
unused for simple extension functions, but comes into play should you want to define new 
classes or object types in C (e.g,, if the extension function were a method of a class, then self 
would hold the instance). The PyArg_ParseTuple() function is used to convert values from 
Python toaCrep - resentation. As input, it takes a format string that indicates the 
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required values, such as “i” for integer and “d” for double, as well as the addresses of C 
variables in which to place the converted results. PyArg_ParseTuple() performs a variety of 
checks on the number and type of arguments. If there is any mismatch with the format 
string, an exception is raised and NULL is returned. By checking for this and simply 
returning NULL, an ap - propriate exception will have been raised in the calling code. The 
Py_BuildValue() function is used to create Python objects from C data types. It also accepts 
a format code to indicate the desired type. In the extension functions, it is used to return 
results back to Python. One feature of Py_BuildValue() is that it can build more complicated 
kinds of objects, such as tuples and dictionaries. In the code for py_divide(), an example 


showing the return of a tuple is shown. However, here are a few more examples: 


return Py_BuildValue(“i”, 34); // Return an integer return Py_BuildValue(“d”, 3.4); // Return 
a double return Py_BuildValue(“s”,“Hello”); // Null-terminated UTF-8 string return 
Py_BuildValue(“(ii)”, 3, 4); // Tuple (3, 4) 


Near the bottom of any extension module, you will find a function table such as the 
SampleMethods table shown in this recipe. This table lists C functions, the names to use in 
Python, as well as doc strings. All modules are required to specify such a table, as it gets 
used in the initialization of the module. The final function Pylnit_sample() is the module 
initialization function that executes when the module is first imported. The primary job of 
this function is to register the module object with the interpreter. As a final note, it must be 
stressed that there is considerably more to extending Python with C functions than what is 


shown here (in fact, the C API contains well over 500 functions in it). You should view this 
recipe simply as a stepping stone for getting started. To do more, start with the 
documentation on the PyArg ParseTuple() and Py_Build Value() functions, and expand 
from there. 


15.3 一 个 操作 数组 的 扩展 函数 
问题 


You want to write a C extension function that operates on contiguous arrays of data, as 
might be created by the array module or libraries like NumPy. However, you would like your 
function to be general purpose and not specific to any one array library. 


To receive and process arrays in a portable manner, you should write code that uses the 
Buffer Protocol. Here is an example of ahandwritten C extension function that receives 
array data and calls the avg(double *buf, int len) function from this chapter’s in - 
troduction: 


/* Call double avg(double *, int) */ static PyObject *py_avg(PyObject *self, PyObject *args) { 


PyObject bufobj; Py_buffer view; double result; / Get the passed Python object */ if 
(!PyArg_ParseTuple(args, “O”, &bufobj)) { 


return NULL; 


/* Attempt to extract buffer information from it */ 


if (PyObject_GetBuffer(bufobj, &view, 
PyBUF_ANY_CONTIGUOUS | PyBUF_FORMAT) == -1) { 


return NULL; 


if (vView.ndim != 1) { 
PyErr_SetString(PyExc_TypeError, “Expected a 1-dimensional array’); 
PyBuffer_Release(&view); return NULL; 


/* Check the type of items in the array */ if (strcmp(view.format,’d”) != 0) { 


PyErr_SetString(PyExc_TypeError, “Expected an array of doubles”); 
PyBuffer_Release(&view); return NULL; 


/* Pass the raw buffer and size to the C function */ result = avg(view.buf, view.shape[0]); 


/* Indicate we're done working with the buffer */ PyBuffer_Release(&view); return 
Py BuildValue(“d”, result); 


Here is an example that shows how this extension function works: 


>>> import array 

>>> avg(array.array('d',[1,2,3])) 
2.0 

>>> import numpy 

>>> avg(numpy.array([1.0,2.0,3.0])) 
2.0 

>>> avg([1,2,3]) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: ‘list' does not support the buffer interface 
>>> avg(b'Hello') 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: Expected an array of doubles 
>>> a = numpy.array([[1.,2.,3-],[4.,5.,6.]]) 
>>> avg(a[:,2]) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: ndarray is not contiguous 
>>> sample.avg(a) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: Expected a 1-dimensional array 
>>> sample.avg(a[@]) 


2.0 


Passing array objects to C functions might be one of the most common things you would 
want to do with a extension function. A large number of Python applications, ranging from 
image processing to scientific computing, are based on high-performance array processing. 
By writing code that can accept and operate on arrays, you can write cus - tomized code 
that plays nicely with those applications as opposed to having some sort of custom solution 
that only works with your own code. The key to this code is the PyBuffer_GetBuffer() 
function. Given an arbitrary Python object, it tries to obtain information about the 
underlying memory representation. If it’s not possible, as is the case with most normal 
Python objects, it simply raises an exception and returns -1. The special flags passed to 
PyBuffer_GetBuffer() give additional hints about the kind of memory buffer that is 
requested. For example, PVWBUF_LANY_CONTIGUOUS specifies that a contiguous region of 
memory is required. For arrays, byte strings, and other similar objects, a Py_buffer structure 
is filled with information about the underlying memory. This includes a pointer to the 
memory, size, itemsize, format, and other details. Here is the definition of this structure: 


typedef struct bufferinfo { 
void buf; / Pointer to buffer memory / PyObject *obj; / Python object that is the owner / 


Py_ssize_t len; / Total size in bytes / Py_ssize_t itemsize; / Size in bytes of a single item / 
int readonly; / Read-only access flag / int ndim; / Number of dimensions / char *format; / 
struct code of a single item / Py_ssize_t *shape; / Array containing dimensions / 
Py_ssize_t *strides; / Array containing strides / Py_ssize_t *suboffsets; / Array containing 
suboffsets */ 


} Py_buffer; 


In this recipe, we are simply concerned with receiving a contiguous array of doubles. To 
check if items are a double, the format attribute is checked to see if the string is “d”. This is 
the same code that the struct module uses when encoding binary values. As a general rule, 
format could be any format string that’s compatible with the struct module and might 
include multiple items in the case of arrays containing C structures. Once we have verified 
the underlying buffer information, we simply pass it to the C function, which treats it as a 
normal C array. For all practical purposes, it is not con - cerned with what kind of array it is 
or what library created it. This is how the function is able to work with arrays created by the 
array module or by numpy. 


Before returning a final result, the underlying buffer view must be released using 
PyBuffer_Release(). This step is required to properly manage reference counts of objects. 
Again, this recipe only shows a tiny fragment of code that receives an array. If working with 
arrays, you might run into issues with multidimensional data, strided data, different data 
types, and more that will require study. Make sure you consult the official docu - 
mentation to get more details. If you need to write many extensions involving array 
handling, you may find it easier to implement the code in Cython. See Recipe 15.11. 


15.4 在 C 扩 展 模块 中 操作 隐形 指针 
问题 


You have an extension module that needs to handle a pointer to a C data structure, but you 
don’t want to expose any internal details of the structure to Python. 


Opaque data structures are easily handled by wrapping them inside capsule objects. 
Consider this fragment of C code from our sample code: 


typedef struct Point { 
double x,y; 


} Point; 


extern double distance(Point *p1, Point *p2); 


Here is an example of extension code that wraps the Point structure and distance() function 
using capsules: 


/* Destructor function for points */ static void del_Point(PyObject *ob)) { 


free(PyCapsule_GetPointer(obj,” Point”)); 


/* Utility functions */ static Point *~PyPoint_AsPoint(PyObject *obj) { 


return (Point *) PyCapsule_GetPointer(obj, “Point”); 


static PyObject *PyPoint_FromPoint(Point *p, int must_free) { 
return PyCapsule_New(p, “Point”, must_free ? del_Point : NULL); 


/* Create anew Point object */ static PyObject *py_Point(PyObject *self, PyObject *args) { 


Point *p; double x,y; if (!PyArg_ParseTuple(args,’dd”,&x,&y)) { 


return NULL; 


} p = (Point *) malloc(sizeof(Point)); p->x = x; p->y = y; return PyPoint_FromPoint(p, 1); 


static PyObject *py_distance(PyObject *self, PyObject *args) { 
Point *p1, *p2; PyObject *py_p1, *py_p2; double result; 


if (!PyArg_ParseTuple(args,"OO”,&py_p1, &py_p2)) { 
return NULL; 


} if ('(p1 = PyPoint_AsPoint(py_p1))) { 


return NULL; 


} if ('(p2 = PyPoint_AsPoint(py_p2))) { 


return NULL; 


} result = distance(p1,p2); return Py_BuildValue(“d”, result); 


Using these functions from Python looks like this: 


>>> import sample 

>>> p1 = sample.Point(2,3) 

>>> p2 = sample.Point(4,5) 

>>> p1 

<capsule object "Point" at 0x1004ea330> 
>>> p2 

<capsule object "Point" at 6x1665d1db6> 
>>> sample.distance(p1,p2) 
2.8284271247461903 

>>> 


Capsules are similar to a typed C pointer. Internally, they hold a generic pointer along with 
an identifying name and can be easily created using the PyCapsule_New() function. In 
addition, an optional destructor function can be attached to a capsule to release the 
underlying memory when the capsule object is garbage collected. 


To extract the pointer contained inside a capsule, use the PyCapsule_GetPointer() function 
and specify the name. If the supplied name doesn’t match that of the capsule or some other 
error occurs, an exception is raised and NULL is returned. In this recipe, a pair of utility 
functions—PyPoint_FromPoint() and PyPoint_As Point()—have been written to deal with 
the mechanics of creating and unwinding Point instances from capsule objects. In any 
extension functions, we'll use these func - tions instead of working with capsules directly. 
This design choice makes it easier to deal with possible changes to the wrapping of Point 
objects in the future. For example, if you decided to use something other than a capsule 
later, you would only have to change these two functions. One tricky part about capsules 
concerns garbage collection and memory management. The PyPoint_FromPoint() function 
accepts a must_free argument that indicates whether the underlying Point * structure is to 
be collected when the capsule is de - stroyed. When working with certain kinds of C code, 
ownership issues can be difficult to handle (e.g., perhaps a Point structure is embedded 
within a larger data structure that is managed separately). Rather than making a unilateral 
decision to garbage collect, this extra argument gives control back to the programmer. It 
should be noted that the destructor associated with an existing capsule can also be 
changed using the PyCap sule_SetDestructor() function. Capsules are a sensible solution to 
interfacing with certain kinds of C code involving structures. For instance, sometimes you 


just don’t care about exposing the internals of a structure or turning it into a full-fledged 
extension type. With a capsule, you can put a lightweight wrapper around it and easily pass 
it around to other extension functions. 


15.5 从 扩张 模块 中 定义 和 导出 C 的 API 

问题 

You have aC extension module that internally defines a variety of useful functions that you 
would like to export as a public C API for use elsewhere. You would like to use these 


functions inside other extension modules, but don’t know how to link them together, and 
doing it with the C compiler/linker seems excessively complicated (or impossible). 


解决 方案 


This recipe focuses on the code written to handle Point objects, which were presented in 
Recipe 15.4. If you recall, that C code included some utility functions like this: 


/* Destructor function for points */ static void del_Point(PyObject *ob)) { 


free(PyCapsule_GetPointer(obj,” Point”)); 


/* Utility functions */ static Point *PyPoint_AsPoint(PyObject *obj) { 


return (Point *) PyCapsule_GetPointer(obj, “Point”); 


static PyObject *PyPoint_FromPoint(Point *p, int must_free) { 
return PyCapsule_New(p, “Point”, must_free ? del_Point : NULL); 


The problem now addressed is how to export the PyPoint_AsPoint() and Py 
Point_FromPoint() functions as an API that other extension modules could use and link to 
(e.g., if you have other extensions that also want to use the wrapped Point objects). To solve 
this problem, start by introducing a new header file for the “sample” extension called 
pysample.h. Put the following code in it: 


/* pysample.h */ #include “Python.h” #include “sample.h” #ifdef _ cplusplus extern “C” { 
#endif 


/* Public API Table */ typedef struct { 


Point *(*aspoint)(PyObject *); PyObject *(*frompoint)(Point *, int); 


}_PointAPIMethods; 


#ifndef PYSAMPLE_MODULE /* Method table in external module */ static 
_PointAPIMethods *_point_api = 0; 


/* Import the API table from sample */ static int import_sample(void) { 


_point_api = (_PointAP|IMethods *) PyCapsule_Import(“sample._point_api”,O); return 
(_point_api != NULL) ? 1:0; 


/* Macros to implement the programming interface */ #define PyPoint_AsPoint(obj) 
(_point_api->aspoint)(obj) #define PyPoint_FromPoint(obj) (_point_api->frompoint)(obj) 
#endif 

#ifdef _ cplusplus } #endif 

The most important feature here is the _PointAPIMethods table of function pointers. It will 
be initialized in the exporting module and found by importing modules. Change the original 
extension module to populate the table and export it as follows: 

/* pysample.c */ 

#include “Python.h” #define PYSAMPLE_MODULE #include “pysample.h” 


.. /* Destructor function for points */ static void del_Point(PyObject *obj) { 


printf(“Deleting pointn”); free(PyCapsule_GetPointer(obj,’Point”)); 


/* Utility functions */ static Point *PyPoint_AsPoint(PyObject *obj) { 


return (Point *) PyCapsule_GetPointer(obj, “Point”); 


static PyObject *PyPoint_FromPoint(Point *p, int free) { 
return PyCapsule_New(p, “Point”, free ? del_Point : NULL); 


static _PointAPIMethods _point_api = { 
PyPoint_AsPoint, PyPoint_FromPoint 


/* Module initialization function */ PPMODINIT_FUNC PyInit_sample(void) { 
PyObject *m; PyObject *py_point_api; 
m = PyModule_Create(&samplemodule); if (m == NULL) 
return NULL; 


/* Add the Point C API functions */ py_point_api = PyCapsule_New((void *) & point_api, 
“sample. _point_api’, NULL); if (py_point_api) { 


PyModule_AddObject(m, “_point_api”, py_point_api); 


}return m; 


Finally, here is an example of anew extension module that loads and uses these API 
functions: 


/* ptexample.c */ 
/* Include the header associated with the other module */ #include “pysample.h” 


/* An extension function that uses the exported API */ static PyObject 
*print_point(PyObject *self, PyObject *args) { 


PyObject *obj; Point *p; if (!PyArg_ParseTuple(args,”O”, &obj)) { 


return NULL; 


/* Note: This is defined in a different module */ p = PyPoint_AsPoint(obj); if (!p) { 
return NULL; 


} printf(“%f %fn”, pP->X， p- >y); return Py_BuildValue(“”); 


static PyMethodDef PtExampleMethods[] = { 
{“print_point”, print_point, METH_VARARGS, “output a point”}, { NULL, NULL, 0, NULL} 


static struct PyModuleDef ptexamplemodule = { 
PyModuleDef_HEAD_INIT, “ptexample”, /* name of module / “A module that imports an 
API”, / Doc string (may be NULL) / -1,/ Size of per-interpreter state or -1/ 
PtExampleMethods / Method table */ 


/* Module initialization function */ PPMODINIT_FUNC PyInit_ptexample(void) { 
PyObject *m; 
m = PyModule_Create(&ptexamplemodule); if (m == NULL) 
return NULL; 
/* Import sample, loading its API functions */ if (!import_sample()) { 


return NULL; 


return m; 


When compiling this new module, you don’t even need to bother to link against any of the 
libraries or code from the other module. For example, you can just make a simple setup.py 
file like this: 


# setup.py from distutils.core import setup, Extension 


setup(name=’ptexample’, 
ext_modules=[ 
Extension(‘ptexample’, 
[‘ptexample.c’], include_dirs = [], # May need pysample.h directory ) 


If it all works, you'll find that your new extension function works perfectly with the C API 
functions defined in the other module: 


>>> import sample 

>>> p1 = sample.Point(2,3) 

>>> pl 

<capsule object "Point *" at 0x1004ea330> 
>>> import ptexample 

>>> ptexample.print_point(p1) 

2.000008 3.000000 

>>> 


讨论 


This recipe relies on the fact that capsule objects can hold a pointer to anything you wish. In 
this case, the defining module populates a structure of function pointers, creates a capsule 
that points to it, and saves the capsule in a module-level attribute (e.g., sam ple._point_api). 
Other modules can be programmed to pick up this attribute when imported and extract the 
underlying pointer. In fact, Python provides the PyCapsule_Import() utility func - tion, 
which takes care of all the steps for you. You simply give it the name of the attribute (e.g., 
sample._point_api), and it will find the capsule and extract the pointer all in one step. There 
are some C programming tricks involved in making exported functions look normal in other 
modules. In the pysample.h file, a pointer _point_api is used to point to the method table 
that was initialized in the exporting module. A related function import_sample() is used to 
perform the required capsule import and initialize this pointer. This function must be called 
before any functions are used. Normally, it would 


be called in during module initialization. Finally, a set of C preprocessor macros have been 
defined to transparently dispatch the API functions through the method table. The user 
just uses the original function names, but doesn’t know about the extra indi - rection 
through these macros. Finally, there is another important reason why you might use this 
technique to link modules together—it’s actually easier and it keeps modules more cleanly 
decoupled. If you didn’t want to use this recipe as shown, you might be able to cross-link 
modules using advanced features of shared libraries and the dynamic loader. For example, 
putting common API functions into a shared library and making sure that all extension 
modules link against that shared library. Yes, this works, but it can be tremendously messy 
in large systems. Essentially, this recipe cuts out all of that magic and allows modules to link 
to one another through Python’s normal import mechanism and just a tiny number of 
capsule calls. For compilation of modules, you only need to worry about header files, not the 
hairy details of shared libraries. Further information about providing C APIs for extension 
modules can be found in the Python documentation. 


15.6 从 C 语 言 中 调用 Python 代码 
问题 


You want to safely execute a Python callable from C and return a result back to C. For 
example, perhaps you are writing C code that wants to use a Python function as a callback. 


解决 方案 


Calling Python from C is mostly straightforward, but involves a number of tricky parts. The 
following C code shows an example of how to do it safely: 


#include <Python.h> 


/* Execute func(x,y) in the Python interpreter. The 
arguments and return result of the function must be Python floats */ 


double call_func(PyObject *func, double x, double y) { 
PyObject *args; PyObject *kwargs; PyObject *result = 0; double retval; 


/* Make sure we own the GIL */ PyGILState_STATE state = PyGILState_Ensure(); 
/* Verify that func is a proper callable */ if (!PyCallable_Check(func)) { 


fprintf(stderr,’ call_func: expected a callablen”); goto fail; 


}/* Build arguments */ args = Py_BuildValue(“(dd)”, x, y); kwargs = NULL; 


/* Call the function */ result = PyObject_Call(func, args, kwargs); Py_DECREF(args); 
Py_XDECREF(kwargs); 


/* Check for Python exceptions (if any) */ if (PyErr_Occurred()) { 


PyErr_Print(); goto fail; 


} 
/* Verify the result is a float object */ if (!PyFloat_Check(result)) { 


fprintf(stderr,”call_func: callable didn’t return a floatn”); goto fail; 


} 
/* Create the return value */ retval = PyFloat_AsDouble(result); Py_ DECREF(result); 


/* Restore previous GIL state and return */ PyGILState_Release(state); return retval; 


fail: 
Py XDECREF (result); PyGILState_Release(state); abort(); // Change to something more 
appropriate 


To use this function, you need to have obtained a reference to an existing Python callable to 
pass in. There are many ways that you can go about doing that, such as having a callable 
object passed into an extension module or simply writing C code to extract a symbol from 
an existing module. Here is a simple example that shows calling a function from an 
embedded Python interpreter: 


#include <Python.h> 


/* Definition of call_func() same as above */... 


/* Load a symbol from a module */ PyObject *import_name(const char *modname, const 
char *symbol) { 


PyObject *u_name, “module; uname = PyUnicode_FromString(modname); module = 


Pylmport_Import(u_name); Py_DECREF(u_name); return 
PyObject_GetAttrString(module, symbol); 


/* Simple embedding example */ int main() { 


PyObject *pow_func; double x; 


Py_Initialize(); /* Get a reference to the math.pow function */ pow_func = 
import_name(“math”,”pow’); 


/* Call it using our call func() code */ for (x = 0.0; x < 10.0; x += 0.1) { 


printf(“%0.2f %0.2fn”, x, call_func(pow_func,x,2.0)); 


}/* Done */ Py_DECREF(pow_func); Py_Finalize(); return O; 


To build this last example, you'll need to compile the C and link against the Python 
interpreter. Here is a Makefile that shows how you might do it (this is something that might 
require some amount of fiddling with on your machine): 


all:: 
cc -g embed.c -I/usr/local/include/python3.3m 
-L/usr/local/lib/python3.3/config-3.3m -lpython3.3m 


Compiling and running the resulting executable should produce output similar to this: 


0.00 0.00 0.10 0.01 0.20 0.04 0.30 0.09 0.40 0.16... 


Here is a slightly different example that shows an extension function that receives a callable 
and some arguments and passes them to call_func() for the purposes of testing: 


/* Extension function for testing the C-Python callback */ PyObject *py_call_func(PyObject 
*self, PyObject *args) { 


PyObject *func; 


double x,y, result; if (!PyArg_ParseTuple(args,”’Odd”, &func,&x,&y)) { 


return NULL; 


} result = call_func(func, x, y); return Py_BuildValue(“d”, result); 


Using this extension function, you could test it as follows: 


>>> import sample 
>>> def add(x,y): 
return x+y 


>>> sample.call_func(add, 3,4) 
7.0 
>>> 


If you are calling Python from C, the most important thing to keep in mind is that C is 
generally going to be in charge. That is, C has the responsibility of creating the argu - 

ments, calling the Python function, checking for exceptions, checking types, extracting 
return values, and more. As a first step, it is critical that you have a Python object 
representing the callable that you’re going to invoke. This could be a function, class, method, 
built-in method, or anything that implements the _call__() operation. To verify that it’s 
callable, use PyCallable_Check() as shown in this code fragment: 


double call_func(PyObject *func, double x, double y) { 
.. /* Verify that func is a proper callable */ if (!PyCallable_ Check(func)) { 


fprintf(stderr,’ call_func: expected a callablen”); goto fail; 


As an aside, handling errors in the C code is something that you will need to carefully study. 
As a general rule, you can’t just raise a Python exception. Instead, errors will have to be 
handled in some other manner that makes sense to your C code. In the solution, we’re using 
goto to transfer control to an error handling block that calls abort(). This causes the whole 
program to die, but in real code you would probably want to do some - thing more graceful 
(e.g., return a status code). Keep in mind that C is in charge here, so there isn’t anything 
comparable to just raising an exception. Error handling is some - thing you'll have to 
engineer into the program somehow. Calling a function is relatively straightforward— 
simply use PyObject_Call(), supply - ing it with the callable object, a tuple of arguments, 
and an optional dictionary of 


keyword arguments. To build the argument tuple or dictionary, you can use Py_Build 
Value(), as shown. 


double call_func(PyObject *func, double x, double y) { 
PyObject *args; PyObject *kwargs; 


.. /* Build arguments */ args = Py_BuildValue(“(dd)”, x, y); kwargs = NULL; 


/* Call the function */ result = PyObject_Call(func, args, kwargs); Py_DECREF(args); 
Py XDECREF(kwargs); ... 


If there are no keyword arguments, you can pass NULL, as shown. After making the function 
call, you need to make sure that you clean up the arguments using Py_DE CREF() or 

Py XDECREF(). The latter function safely allows the NULL pointer to be passed (which is 
ignored), which is why we're using it for cleaning up the optional keyword arguments. After 
calling the Python function, you must check for the presence of exceptions. The 
PyErr_Occurred() function can be used to do this. Knowing what to do in response to an 
exception is tricky. Since you’re working from C, you really don’t have the exception 
machinery that Python has. Thus, you would have to set an error status code, log the error, 
or do some kind of sensible processing. In the solution, abort() is called for lack of a simpler 
alternative (besides, hardened C programmers will appreciate the abrupt crash): 


.. /* Check for Python exceptions (if any) */ if (PyErr_Occurred()) { 


PyErr_Print(); goto fail; 


fail: 
PyGILState_Release(state); abort(); 


Extracting information from the return value of calling a Python function is typically going 
to involve some kind of type checking and value extraction. To do this, you may have to use 
functions in the Python concrete objects layer. In the solution, the code checks for and 
extracts the value of a Python float using PyFloat_Check() and Py Float_AsDouble(). 


A final tricky part of calling into Python from C concerns the management of Python’s 
global interpreter lock (GIL). Whenever Python is accessed from C, you need to make sure 
that the GILis properly acquired and released. Otherwise, you run the risk of having the 
interpreter corrupt data or crash. The calls to PyYGILState_Ensure() and PyGIL 
State_Release() make sure that it’s done correctly: 


double call_func(PyObject *func, double x, double y) { 
.. double retval; 


/* Make sure we own the GIL/ PyGILState_STATE state = PyGILState_Ensure(); .../ Code 
that uses Python C API functions /.../ Restore previous GIL state and return */ 
PyGILState_Release(state); return retval; 


fail: 
PyGILState_Release(state); abort(); 


Upon return, PyGILState_Ensure() always guarantees that the calling thread has ex - 
clusive access to the Python interpreter. This is true even if the calling C code is running a 
different thread that is unknown to the interpreter. At this point, the C code is free to use 
any Python C-API functions that it wants. Upon successful completion, PyGIL 
State_Release() is used to restore the interpreter back to its original state. It is critical to 
note that every PyGILState_Ensure() call must be followed by a matching 
PyGILState_Release() call—even in cases where errors have occurred. In the solution, the 
use of a goto statement might look like a horrible design, but we're actually using it to 
transfer control to a common exit block that performs this required step. Think of the code 
after the fail: lable as serving the same purpose as code in a Python final ly: block. If you 
write your C code using all of these conventions including management of the GIL, checking 
for exceptions, and thorough error checking, you'll find that you can reliably call into the 
Python interpreter from C—even in very complicated programs that utilize advanced 
programming techniques such as multithreading. 


15.7 从 C 扩 展 中 释放 全 局 锁 
问题 


You have C extension code in that you want to execute concurrently with other threads in 
the Python interpreter. To do this, you need to release and reacquire the global in - 
terpreter lock (GIL). 


解决 方案 


In C extension code, the GIL can be released and reacquired by inserting the following 
macros in the code: 


#include “Python.h’ ... 


Py Object *pyfunc(PyObject *self, PyObject *args) { 
.. Py_BEGIN_-ALLOW_THREADS // Threaded C code. Must not use Python API 
functions ... Py END_ALLOW_THREADS... return result; 


The GIL can only safely be released if you can guarantee that no Python C API functions will 
be executed in the C code. Typical examples where the GIL might be released are in 
computationally intensive code that performs calculations on C arrays (e.g., in ex - tensions 
such as numpy) or in code where blocking I/O operations are going to be per - formed (e.g. 
reading or writing on a file descriptor). While the GIL is released, other Python threads are 
allowed to execute in the interpreter. The Py END_ALLOW_THREADS macro blocks 
execution until the calling threads reacquires the GIL in the interpreter. 


15.8 C 和 Python 中 的 线程 混用 
问题 
You have a program that involves a mix of C, Python, and threads, but some of the threads 


are created from C outside the control of the Python interpreter. Moreover, certain threads 
utilize functions in the Python C API. 


解决 方案 
If you’re going to mix C, Python, and threads together, you need to make sure you properly 
initialize and manage Python’s global interpreter lock (GIL). To do this, include the following 
code somewhere in your C code and make sure it’s called prior to creation of any threads: 
#include <Python.h> 

.. if (!PyEval_ThreadsInitialized()) { 

PyEval_InitThreads(); 

For any C code that involves Python objects or the Python C API, make sure you prop - 
erly acquire and release the GIL first. This is done using PyGILState_Ensure() and 
PyGILState_Release(), as shown in the following: 


.. /* Make sure we own the GIL */ PyGILState_STATE state = PyGILState_Ensure(); 


/* Use functions in the interpreter /.../ Restore previous GIL state and return */ 
PyGILState_Release(state); ... 


Every call to PyGILState_Ensure() must have a matching call to PyGlLState Re lease(). 


讨论 


In advanced applications involving C and Python, it is not uncommon to have many things 
going on at once—possibly involving a mix of a C code, Python code, C threads, and Python 
threads. As long as you diligently make sure the interpreter is properly initialized and that C 
code involving the interpreter has the proper GIL management calls, it all should work. Be 
aware that the PyGILState_Ensure() call does not immediately preempt or interrupt the 
interpreter. If other code is currently executing, this function will block until that code 
decides to release the GIL. Internally, the interpreter performs periodic thread switching, so 
even if another thread is executing, the caller will eventually get to run (although it may 
have to wait for a while first). 


15.9 用 WSIG 包 装 C 代 码 
问题 


You have existing C code that you would like to access as a C extension module. You would 
like to do this using the Swig wrapper generator. 


Swig operates by parsing C header files and automatically creating extension code. To use it, 
you first need to have a C header file. For example, this header file for our sample code: 


/* sample.h */ 


#include <math.h> extern int gcd(int, int); extern int in_mandel(double xO, double yO, int n); 
extern int divide(int a, int b, int *remainder); extern double avg(double “a, int n); 


typedef struct Point { 
double x,y; 


} Point; 
extern double distance(Point *p1, Point *p2); 


Once you have the header files, the next step is to write a Swig “interface” file. By con - 
vention, these files have a .i suffix and might look similar to the following: 


// sample.i - Swig interface %module sample %{ #include “sample.h” %} 


/* Customizations */ %extend Point { 


/* Constructor for Point objects */ Point(double x, double y) { 


Point *p = (Point *) malloc(sizeof(Point)); p->x = x; p->y = y; return p; 


/* Map int *remainder as an output argument */ %include typemaps.i %apply int “OUTPUT { 
int * remainder }; 


/* Map the argument pattern (double “a, int n) to arrays */ %typemap(in) (double “a, int n) 
(Py_buffer view) { 


view.obj = NULL; if (PyObject_GetBuffer($input, &view, PWBUF_LANY_CONTIGUOUS | 
PyBUF_FORMAT) == -1) { 


SWIG fail; 
} if (strcmp(view.format,’d”) != 0) { 
PyErr_SetString(PyExc_TypeError, “Expected an array of doubles”); SWIG fail; 


} $1 = (double *) view.buf; $2 = view.len / sizeof(double); 


%typemap(freearg) (double *a, int n) { 
if (view$argnum.ob)) { 
PyBuffer_Release(&view$argnum); 


/* C declarations to be included in the extension module */ 


extern int gcd(int, int); extern int in_mandel(double xO, double yO, int n); extern int 
divide(int a, int b, int *remainder); extern double avg(double *a, int n); 


typedef struct Point { 
double x,y; 


} Point; 


extern double distance(Point *p1, Point *p2); 
Once you have written the interface file, Swig is invoked as a command-line tool: 
bash % swig -python -py3 sample.i bash % 


The output of swig is two files, sample_wrap.c and sample.py. The latter file is what users 
import. The sample_wrap.c file is C code that needs to be compiled into a sup - porting 
module called sample. This is done using the same techniques as for normal extension 
modules. For example, you create a setup.py file like this: 


# setup.py from distutils.core import setup, Extension 


setup(name='sample’, 
py_modules=[‘sample.py’], ext_modules=[ 


Extension(‘_sample’, 
[‘sample_wrap.c’)], include_dirs = [], define_macros = [], 


undef_macros = [], library_dirs = [], libraries = [‘sample’] ) 


To compile and test, run python3 on the setup.py file like this: 
bash % python3 setup.py build_ext -inplace running build_ext building ‘_sample’ extension 
gcc -fno-strict-aliasing - DNDEBUG -g -fwrapv -O3 -Wall -Wstrict-prototypes - 
I/usr/local/include/python3.3m -c sample_wrap.c 

-o build/temp.macosx-10.6-x86_64-3.3/sample_wrap.o 
sample_wrap.c: In function ‘SWIG_InitializeModule’: sample_wrap.c:3589: warning: 
statement with no effect gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6- 
x86_64-3.3/sample.o 

build/temp.macosx- 10.6-x86_64-3.3/sample_wrap.o -o _sample.so -lsample 


bash % 


If all of this works, you'll find that you can use the resulting C extension module ina 
straightforward way. For example: 


>>> import sample 
>>> sample.gcd(42,8) 


>>> sample.divide(42,8) 
[5, 2] 

>>> p1 = sample.Point(2,3) 
>>> p2 = sample.Point(4,5) 
>>> sample.distance(p1,p2) 
2.8284271247461903 

>>> p1.x 

2.0 

>>> pl.y 

3.0 

>>> import array 

>>> a = array.array(‘'d',[1,2,3]) 
>>> sample.avg(a) 

2.0 

>>> 


Swig is one of the oldest tools for building extension modules, dating back to Python 
Python. Swig can automate much of the wrapper generation process. 


All Swig interfaces tend to start with a short preamble like this: 


%module sample %{ #include “sample.h” %} 


This merely declares the name of the extension module and specifies C header files that 
must be included to make everything compile (the code enclosed in %{ and %} is pasted 
directly into the output code so this is where you put all included files and other defi - 
nitions needed for compilation). The bottom part of a Swig interface is a listing of C 
declarations that you want to be included in the extension. This is often just copied from 
the header files. In our example, we just pasted in the header file directly like this: 


%module sample %{ #include “sample.h” %} ... extern int gcd(int, int); extern int 
in_mandel(double xO, double yO, int n); extern int divide(int a, int b, int *remainder); extern 
double avg(double *a, int n); 


typedef struct Point { 
double x,y; 


} Point; 


extern double distance(Point *p1, Point *p2); 


It is important to stress that these declarations are telling Swig what you want to include in 
the Python module. It is quite common to edit the list of declarations or to make 
modifications as appropriate. For example, if you didn’t want certain declarations to be 
included, you would remove them from the declaration list. The most complicated part of 
using Swig is the various customizations that it can apply to the C code. This is a huge topic 
that can’t be covered in great detail here, but a number of such customizations are shown in 
this recipe. The first customization involving the %extend directive allows methods to be 
attached to existing structure and class definitions. In the example, this is used to add a 

con - structor method to the Point structure. This customization makes it possible to use 
the structure like this: 


>>> p1 = sample.Point(2,3) 
>>> 


If omitted, then Point objects would have to be created in a much more clumsy manner like 
this: 


>>> # Usage if %extend Point is omitted 
>>> p1 = sample.Point() 

>>> p1.x = 2.0 

>>> pl.y = 3 


The second customization involving the inclusion of the typemaps.i library and the %apply 
directive is instructing Swig that the argument signature int *remainder is to be treated as 
an output value. This is actually a pattern matching rule. In all declarations that follow, any 
time int *remainder is encountered, it is handled as output. This customization is what 
makes the divide() function return two values: 


>>> sample.divide(42,8) 
[5, 2] 
>>> 


The last customization involving the %typemap directive is probably the most advanced 
feature shown here. A typemap is a rule that gets applied to specific argument patterns in 
the input. In this recipe, a typemap has been written to match the argument pattern (double 
*a, int n). Inside the typemap is a fragment of C code that tells Swig how to convert a Python 
object into the associated C arguments. The code in this recipe has been written using 
Python’s buffer protocol in an attempt to match any input argument that looks like an array 


of doubles (e.g., NumPy arrays, arrays created by the array module, etc.). See Recipe 15.3. 
Within the typemap code, substitutions such as $1 and $2 refer to variables that hold the 
converted values of the C arguments in the typemap pattern (e.g., $1 maps to double *a and 
$2 maps to int n). $input refers to a PyObject * argument that was supplied as an input 
argument. $argnum is the argument number. Writing and understanding typemaps is often 
the bane of programmers using Swig. Not only is the code rather cryptic, but you need to 
understand the intricate details of both the Python C API and the way in which Swig 
interacts with it. The Swig documentation has many more examples and detailed 
information. Nevertheless, if you have a lot of a C code to expose as an extension module, 
Swig can be a very powerful tool for doing it. The key thing to keep in mind is that Swig is 
basically a compiler that processes C declarations, but with a powerful pattern matching 
and customization component that lets you change the way in which specific declarations 
and types get processed. More information can be found at Swig’s website, including 
Python-specific documentation. 


15.10 用 Cython 包 装 C 代 码 
问题 


You want to use Cython to make a Python extension module that wraps around an existing 
C library. 


解决 方案 


Making an extension module with Cython looks somewhat similar to writing a hand - 
written extension, in that you will be creating a collection of wrapper functions. How - 
ever, unlike previous recipes, you won't be doing this in C—the code will look a lot more like 
Python. As preliminaries, assume that the sample code shown in the introduction to this 
chapter has been compiled into a C library called libsample. Start by creating a file named 
csample.pxd that looks like this: 


# csample.pxd # # Declarations of “external” C functions and structures 


cdef extern from “sample.h”: 
int gcd(int, int) bint in_mandel(double, double, int) int divide(int, int, int *) double 


avg(double *, int) nogil 


ctypedef struct Point: 
double x double y 


double distance(Point *, Point *) 


This file serves the same purpose in Cython as a C header file. The initial declaration cdef 
extern from “sample.h” declares the required C header file. Declarations that follow are 
taken from that header. The name of this file is csample.pxd, not sam - ple.pxd—this is 
important. Next, create a file named sample.pyx. This file will define wrappers that bridge 
the Python interpreter to the underlying C code declared in the csample.pxd file: 


# sample.pyx 


# Import the low-level C declarations cimport csample 


# Import some functionality from Python and the C stdlib from cpython.pycapsule cimport 


* 


from libc.stdlib cimport malloc, free 


# Wrappers def gcd(unsigned int x, unsigned int y): 


return csample.gcd(x, y) 


def in_mandel(x, y, unsigned int n): 
return csample.in_mandel(x, y, n) 


def divide(x, y): 
cdef int rem quot = csample.divide(x, y, &rem) return quot, rem 


def avg(double[:] a): 
cdef: 
int sz double result 


sz = a.size with nogil: 


result = csample.avg(<double *> &a[0], sz) 


return result 


# Destructor for cleaning up Point objects cdef del_Point(object obj): 


pt = <csample.Point *> PyCapsule_GetPointer(obj,’ Point”) free(<void *> pt) 


# Create a Point object and return as a capsule def Point(double x,double y): 


cdef csample.Point *p p = <csample.Point *> malloc(sizeof(csample.Point)) if p == NULL: 


raise MemoryError(“No memory to make a Point”) 


p.x =x py = y return PyCapsule_New(<void *>p, Point”, 
<PyCapsule_Destructor>del_Point) 


def distance(p1, p2): 
pt1 = <csample.Point *> PyCapsule_GetPointer(p1,” Point”) pt2 = <csample.Point *> 
PyCapsule_GetPointer(p2,” Point”) return csample.distance(pt1,pt2) 


Various details of this file will be covered further in the discussion section. Finally, to build 
the extension module, create a setup.py file that looks like this: 


from distutils.core import setup from distutils.extension import Extension from 
Cython.Distutils import build_ext 


ext_modules = [ 
Extension(‘sample’, 


[‘sample.pyx’], libraries=[‘sample’, library_dirs=[‘.’])] 


setup( 
name = ‘Sample extension module’, cmdclass = {‘build_ext’: build_ext}, ext_modules = 
ext_modules 


To build the resulting module for experimentation, type this: 


bash % python3 setup.py build_ext -inplace running build_ext cythoning sample.pyx to 
sample.c building ‘sample’ extension gcc -fno-strict-aliasing - DNDEBUG -g -fwrapv -O3 - 
Wall -Wstrict-prototypes 


-|/usr/local/include/python3.3m -c sample.c -o build/temp.macosx- 10.6-x86_64- 
3.3/sample.o 


gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6-x86_64-3.3/sample.o 
-L. -lsample -o sample.so 


bash % 


If it works, you should have an extension module sample.so that can be used as shown in 
the following example: 


>>> import sample 

>>> sample.gcd(42,10) 

2 

>>> sample.in_mandel(1,1, 400) 
False 

>>> sample.in_mandel(@,9,400) 
True 

>>> sample.divide(42,10) 

(4, 2) 

>>> import array 

>>> a = array.array('d',[1,2,3]) 
>>> sample.avg(a) 

2.0 

>>> p1 = sample.Point(2,3) 

>>> p2 = sample.Point(4,5) 

>>> pl 

<capsule object "Point" at 6x1665d1e76> 
>>> p2 

<capsule object "Point" at 6x1665d1ea6> 
>>> sample.distance(p1,p2) 
2.8284271247461903 

>>> 


讨论 


This recipe incorporates a number of advanced features discussed in prior recipes, in - 
cluding manipulation of arrays, wrapping opaque pointers, and releasing the GIL. Each of 
these parts will be discussed in turn, but it may help to review earlier recipes first. At a high 
level, using Cython is modeled after C. The .pxd files merely contain C defi - nitions (similar 
to .h files) and the .pyx files contain implementation (similar to a .c file). The cimport 
statement is used by Cython to import definitions from a .pxd file. This is different than 
using anormal Python import statement, which would load a regular Python module. 
Although .pxd files contain definitions, they are not used for the purpose of automati - 
cally creating extension code. Thus, you still have to write simple wrapper functions. For 
example, even though the csample.pxd file declares int gcd(int, int) as a func - tion, you still 
have to write a small wrapper for it in sample.pyx. For instance: 


cimport csample 


def gcd(unsigned int x, unsigned int y): 
return csample.gcd(x,y) 


For simple functions, you don’t have to do too much. Cython will generate wrapper code 
that properly converts the arguments and return value. The C data types attached to the 
arguments are optional. However, if you include them, you get additional error checking for 


free. For example, if someone calls this function with negative values, an exception Is 
generated: 


>>> sample.gcd(-10, 2) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "sample.pyx", line 7, in sample.gcd (sample.c:1284) 
def gcd(unsigned int x,unsigned int y): 
OverflowError: can't convert negative value to unsigned int 
>>> 


If you want to add additional checking to the wrapper, just use additional wrapper code. For 
example: 


def gcd(unsigned int x, unsigned int y): 
if x <=0: 
raise ValueError(“x must be > 0”) 


if y <=0: 
raise ValueError(“y must be > 0”) 


return csample.gcd(x,y) 


The declaration of in_mandel() in the csample.pxd file has an interesting, but subtle 
definition. In that file, the function is declared as returning a bint instead of an int. This 
causes the function to create a proper Boolean value from the result instead of a simple 
integer. So, a return value of O gets mapped to False and 1 to True. 


Within the Cython wrappers, you have the option of declaring C data types in addition to 
using all of the usual Python objects. The wrapper for divide() shows an example of this as 
well as how to handle a pointer argument. 


def divide(x,y): 
cdef int rem quot = csample.divide(x,y,&rem) return quot, rem 


Here, the rem variable is explicitly declared as a C int variable. When passed to the 
underlying divide() function, &rem makes a pointer to it just as in C. The code for the avg() 
function illustrates some more advanced features of Cython. First the declaration def 
avg(double[:] a) declares avg() as taking a one-dimensional memoryview of double values. 
The amazing part about this is that the resulting function will accept any compatible array 
object, including those created by libraries such as numpy. For example: >>> import array 
>>> a =array.array(‘d’,[1,2,3]) >>> import numpy >>> b = numpy.array([1., 2., 3.]) >>> import 
sample >>> sample.avg(a) 2.0 >>> sample.avg(b) 2.0 >>> 


In the wrapper, a.size and &a[O] refer to the number of array items and underlying pointer, 
respectively. The syntax <double *> &a[0] is how you type cast pointers to a different type if 
necessary. This is needed to make sure the C avg() receives a pointer of the correct type. 
Refer to the next recipe for some more advanced usage of Cython memoryviews. In 
addition to working with general arrays, the avg() example also shows how to work with the 
global interpreter lock. The statement with nogil: declares a block of code as executing 
without the GIL. Inside this block, it is illegal to work with any kind of normal Python object 
—only objects and functions declared as cdef can be used. In addition to that, external 
functions must explicitly declare that they can execute without the GIL. Thus, in the 
csample.pxd file, the avg() is declared as double avg(double *, int) nogil. The handling of the 
Point structure presents a special challenge. As shown, this recipe treats Point objects as 
opaque pointers using capsule objects, as described in Recipe 15.4. However, to do this, the 
underlying Cython code is a bit more complicated. First, the following imports are being 
used to bring in definitions of functions from the C library and Python C API: 


from cpython.pycapsule cimport * from libc.stdlib cimport malloc, free 


The function del_Point() and Point() use this functionality to create a capsule object that 
wraps around a Point * pointer. The declaration cdef del_Point() declares del_Point() as a 
function that is only accessible from Cython and not Python. Thus, this function will not be 
visible to the outside—instead, it’s used as a callback function to clean up memory allocated 
by the capsule. Calls to functions such as PyCap sule_New/(), PyCapsule_GetPointer() are 
directly from the Python C API and are used in the same way. The distance() function has 
been written to extract pointers from the capsule objects created by Point(). One notable 
thing here is that you simply don’t have to worry about exception handling. If a bad object is 
passed, PyCapsule_GetPointer() raises an ex - ception, but Cython already knows to look 
for it and propagate it out of the dis tance() function if it occurs. A downside to the handling 
of Point structures is that they will be completely opaque in this implementation. You won't 
be able to peek inside or access any of their attributes. There is an alternative approach to 
wrapping, which is to define an extension type, as shown in this code: 


# sample.pyx 


cimport csample from libc.stdlib cimport malloc, free... 


cdef class Point: 
cdef csample.Point *_c_point def _cinit_ (self, double x, double y): 


self. c point = <csample.Point *> malloc(sizeof(csample.Point)) self._c_point.x = x 
self._c_point.y = y 


def _dealloc_(self): 
free(self._c_point) 


property x: 


def get_ (self): 
return self._c_point.x 


def _set_(self, value): 
self._c_point.x = value 


property y: 
def get_ (self): 
return self._c_point.y 


def _set_(self, value): 
self._c_point.y = value 


def distance(Point p1, Point p2): 
return csample.distance(p1._c_point, p2. c_point) 


Here, the cdef class Point is declaring Point as an extension type. The class variable cdef 
csample.Point *_c_point is declaring an instance variable that holds a pointer to an 
underlying Point structure in C. The _cinit__() and _dealloc_() methods create and destroy 
the underlying C structure using malloc() and free() calls. The property x and property y 
declarations give code that gets and sets the underlying structure attributes. The wrapper 
for distance() has also been suitably modified to accept instances of the Point extension 
type as arguments, but pass the underlying pointer to the C function. Making this change, 
you will find that the code for manipulating Point objects is more natural: 


>>> import sample 

>>> p1 = sample.Point(2,3) 

>>> p2 = sample.Point(4,5) 

>>> pl 

<sample.Point object at 0x100447288> 
>>> p2 

<sample.Point object at 0x1004472a0> 
>>> p1.x 

2.0 

>>> pl.y 

3.0 

>>> sample.distance(p1, p2) 
2.8284271247461903 

>>> 


This recipe has illustrated many of Cython’s core features that you might be able to 
extrapolate to more complicated kinds of wrapping. However, you will definitely want to 
read more of the official documentation to do more. The next few recipes also illustrate a 
few additional Cython features. 


15.11 用 Cython 写 高 性 能 的 数组 操作 


问题 


You would like to write some high-performance array processing functions to operate on 
arrays from libraries such as NumPy. You’ve heard that tools such as Cython can make this 
easier, but aren’t sure how to do it. 


As an example, consider the following code which shows a Cython function for clipping the 
values in asimple one-dimensional array of doubles: 


# sample.pyx (Cython) 


cimport cython 


@cython.boundscheck(False) @cython.wraparound(False) cpdef clip(double[:] a, double 
min, double max, double[:] out): 


oy) 


” Clip the values in a to be between min and max. Result in out ” if min > max: 


raise ValueError(“min must be <= max”) 
if a.shape[0] != out.shape[0]: 
raise ValueError(“input and output arrays must be the same size”) 


for iin range(a.shape[0)): 
if ali] < min: 
out[i] = min 


elif ali] > max: 


out[i] = max 
else: 
out[i] = ali] 


To compile and build the extension, you'll need a setup.py file such as the following (use 
python3 setup.py build_ext -inplace to build it): 


from distutils.core import setup from distutils.extension import Extension from 
Cython.Distutils import build_ext 


ext_modules = [ 
Extension(‘sample’, 
[‘sample.pyx’]) 


setup( 
name = ‘Sample app’, cmdclass = {‘build_ext’: build_ext}, ext_modules = ext_modules 


You will find that the resulting function clips arrays, and that it works with many dif - 
ferent kinds of array objects. For example: 


>>> # array module example 

>>> import sample 

>>> import array 

>>> a = array.array(‘'d',[1,-3,4,7,2,0]) 
>>> a 


array(‘d’, [1.0, -3.0, 4.0, 7.0, 2.0, 0.0]) >>> sample.clip(a,1,4,a) >>> a array(‘d’, [1.0, 1.0, 4.0, 4.0, 
2.0, 1.0]) 


>>> # numpy example 

>>> import numpy 

>>> b = numpy.random.uniform(-10,10,size=1000000) 

>>> b 

array([-9.55546017, 7.45599334, @.69248932, ..., @0.69583148, 
-3.86290931, 2.37266888]) 

>>> c = numpy.zeros_like(b) 


$S>-¢ 

array([ 6.， 0., O., ..., 0., ©., 0.]) 

>>> sample.clip(b,-5,5,c) 

SSAC 

array([-5. ， 5. , @.69248932, ..., 6.69583148， 


-3.86290931, 2.37266888]) 
>>> min(c) 
=5.0 
>>> max(c) 
5.0 
>>> 


You will also find that the resulting code is fast. The following session puts our imple - 
mentation in a head-to-head battle with the clip() function already present in numpy: 


>>> timeit('numpy.clip(b,-5,5,c)','from _ main__ import b,c,numpy' ,number=1000) 
8.093049556000551 

>>> timeit('sample.clip(b,-5,5,c)','from __main__ import b,c,sample', 

frase number=1000@) 

3.760528204000366 

>>> 


As you can see, it’s quite a bit faster—an interesting result considering the core of the 
NumPy version is written in C. 


This recipe utilizes Cython typed memoryviews, which greatly simplify code that op - 

erates on arrays. The declaration cpdef clip() declares clip() as both a C-level and Python- 
level function. In Cython, this is useful, because it means that the function call is more 
efficently called by other Cython functions (e.g., if you want to invoke clip() from a different 
Cython function). The typed parameters double[:] a and double[:] out declare those 
parameters as one-dimensional arrays of doubles. As input, they will access any array object 
that properly implements the memoryview interface, as described in PEP 3118. This 
includes arrays from NumPy and from the built-in array library. 


When writing code that produces a result that is also an array, you should follow the 
convention shown of having an output parameter as shown. This places the responsi - 
bility of creating the output array on the caller and frees the code from having to know too 
much about the specific details of what kinds of arrays are being manipulated (it just 
assumes the arrays are already in-place and only needs to perform a few basic sanity checks 
such as making sure their sizes are compatible). In libraries such as NumPy, it is relatively 
easy to create output arrays using functions such as numpy.zeros() or numpy.zeros_like(). 
Alternatively, to create uninitialized arrays, you can use num py.empty() or 
numpy.empty_like(). This will be slightly faster if you’re about to over - write the array 
contents with a result. In the implementation of your function, you simply write 
straightforward looking array processing code using indexing and array lookups (e.g., ali], 
out[i], and so forth). Cython will take steps to make sure these produce efficient code. The 
two decorators that precede the definition of clip() are a few optional performance 
optimizations. @cython.boundscheck(False) eliminates all array bounds checking and can 
be used if you know the indexing wont go out of range. @cython.wrap around(False) 
eliminates the handling of negative array indices as wrapping around to the end of the array 
(like with Python lists). The inclusion of these decorators can make the code run 
substantially faster (almost 2.5 times faster on this example when tested). Whenever 


working with arrays, careful study and experimentation with the underlying algorithm can 
also yield large speedups. For example, consider this variant of the clip() function that uses 
conditional expressions: 


@cython.boundscheck(False) @cython.wraparound (False) cpdef clip(double[:] a, double 
min, double max, double[:] out): 


if min > max: 
raise ValueError(“min must be <= max”) 


if a.shape[0] != out.shape[0]: 
raise ValueError(“input and output arrays must be the same size”) 


for i in range(a.shape[0)]): 
out|i] = (ali] if ali] < max else max) if ali] > min else min 


When tested, this version of the code runs over 50% faster (2.44s versus 3.76s on the 
timeit() test shown earlier). At this point, you might be wondering how this code would 
stack up against ahand - written C version. For example, perhaps you write the following C 
function and craft a handwritten extension to using techniques shown in earlier recipes: 


void clip(double *a, int n, double min, double max, double *out) { 
double x; for (; n >= 0; n-, a++, out++) { 


xX =*a; 


*out = x > max? max: (x < min? min: x); 


The extension code for this isn’t shown, but after experimenting, we found that a hand - 
crafted C extension ran more than 10% slower than the version created by Cython. The 
bottom line is that the code runs a lot faster than you might think. There are several 
extensions that can be made to the solution code. For certain kinds of array operations, it 
might make sense to release the GIL so that multiple threads can run in parallel. To do that, 
modify the code to include the with nogil: statement: 


@cython.boundscheck(False) @cython.wraparound (False) cpdef clip(double[:] a, double 
min, double max, double[:] out): 


if min > max: 
raise ValueError(“min must be <= max”) 


if a.shape[0] != out.shape[0]: 
raise ValueError(“input and output arrays must be the same size”) 


with nogil: 
for iin range(a.shape[0)): 
out|i] = (ali] if ali] < max else max) if ali] > min else min 


If you want to write a version of the code that operates on two-dimensional arrays, here is 
what it might look like: 


@cython.boundscheck(False) @cython.wraparound (False) cpdef clip2d(double[:,:] a, double 
min, double max, double[:,:] out): 


if min > max: 
raise ValueError(“min must be <= max”) 


for nin range(a.ndim): 
if a.shape[n] != out.shape[n]: 
raise TypeError(“a and out have different shapes”) 


for iin range(a.shape[0)): 
for j in range(a.shape[1)]): 
if a[i,j] < min: 
out[i,j] = min 


elif ali,j] > max: 
out[i,j] = max 


else: 
out[i,j] = ali] 


Hopefully it’s not lost on the reader that all of the code in this recipe is not tied to any 
specific array library (e.g., NumPy). That gives the code a great deal of flexibility. How - 
ever, it’s also worth noting that dealing with arrays can be significantly more complicated 
once multiple dimensions, strides, offsets, and other factors are introduced. Those top - ics 
are beyond the scope of this recipe, but more information can be found in PEP 3118. The 
Cython documentation on “typed memoryviews’” is also essential reading. 


15.12 将 函数 指针 转换 为 可 调用 对 象 


问题 


You have (somehow) obtained the memory address of a compiled function, but want to 
turn it into a Python callable that you can use as an extension function. 


解决 方案 


The ctypes module can be used to create Python callables that wrap around arbitrary 
memory addresses. The following example shows how to obtain the raw, low-level ad - 
dress of aC function and how to turn it back into a callable object: 


>>> import ctypes 

>>> lib = ctypes.cd1ll.LoadLibrary(None) 

>>> # Get the address of sin() from the C math Library 
>>> addr = ctypes.cast(lib.sin, ctypes.c_void_p).value 
>>> addr 

140735505915760 


>>> # Turn the address into a callable function 

>>> functype = ctypes.CFUNCTYPE(ctypes.c_double, ctypes.c_double) 
>>> func = functype(addr) 

>>> func 

<CFunctionType object at 0x1006816d0> 


>>> # Call the resulting function 
>>> func(2) 

@.9092974268256817 

>>> func(@) 

0.0 

>>> 


To make a callable, you must first create a CFUNCTYPE instance. The first argument to 
CFUNCTYPE() is the return type. Subsequent arguments are the types of the arguments. 
Once you have defined the function type, you wrap it around an integer memory address to 
create a callable object. The resulting object is used like any normal function accessed 
through ctypes. This recipe might look rather cryptic and low level. However, it is becoming 
increasingly common for programs and libraries to utilize advanced code generation 


techniques like just in-time compilation, as found in libraries such as LLVM. For example, 
here is a simple example that uses the Ilvmpy extension to make a small assembly function, 
obtain a function pointer to it, and turn it into a Python callable: 


>>> from llvm.core import Module, Function, Type, Builder 

>>> mod = Module.new('example' ) 

>>> f = Function.new(mod, Type.function(Type.double(), \ 
[Type.double(), Type.double()], False), 'foo') 

>>> block = f.append_basic_block('‘entry' ) 

>>> builder = Builder.new(block) 

>>> x2 = builder. fmul(f.args[0],f.args[0]) 

>>> y2 = builder. fmul(f.args[1],f.args[1]) 

>>> r = builder.fadd(x2,y2) 

>>> builder.ret(r) 

<llvm.core.Instruction object at 0x10078e990> 

>>> from llvm.ee import ExecutionEngine 

>>> engine = ExecutionEngine.new(mod) 

>>> ptr = engine.get_pointer_to_function(f) 

>>> ptr 

4325863440 

>>> foo = ctypes.CFUNCTYPE(ctypes.c_double, ctypes.c_double, ctypes.c_double) (ptr) 


>>> # Call the resulting function 
>>> foo(2,3) 

13.0 

>>> foo(4,5) 

41.0 

>>> foo(1,2) 

5.0 

>>> 


It goes without saying that doing anything wrong at this level will probably cause the 
Python interpreter to die a horrible death. Keep in mind that you’re directly working with 
machine-level memory addresses and native machine code—not Python functions. 


15.13 传递 NULEL 结 尾 的 字符 串 给 C 函 数 库 
问题 


You are writing an extension module that needs to pass a NULL-terminated string to a C 
library. However, you’re not entirely sure how to do it with Python’s Unicode string 
implementation. 


Many C libraries include functions that operate on NULL-terminated strings declared as 
type char *. Consider the following C function that we will use for the purposes of 
illustration and testing: 


void print_chars(char *s) { 
while (*s) { 
printf(“%2x ”, (unsigned char) *s); 


S++; 


? 


} printf(“n”); 


This function simply prints out the hex representation of individual characters so that the 
passed strings can be easily debugged. For example: print_chars(“Hello”); // Outputs: 48 65 
6c 6c 6f 


For calling such a C function from Python, you have a few choices. First, you could restrict it 


ay 


to only operate on bytes using “y” conversion code to PyArg_ParseTuple() like this: 


static PyObject *py_print_chars(PyObject *self, PyObject *args) { 
char *s; 


if (!PyArg_ParseTuple(args, “y”, &s)) { 
return NULL; 


} print_chars(s); Py_ RETURN_NONE; 


The resulting function operates as follows. Carefully observe how bytes with embedded 
NULL bytes and Unicode strings are rejected: 


>>> print_chars(b'Hello World') 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars(b'Hello\x@@World') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: must be bytes without null bytes, not bytes 
>>> print_chars('Hello World’ ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: ‘str' does not support the buffer interface 
>>> 


If you want to pass Unicode strings instead, use the “s” format code to PyArg_Parse Tuple() 


such as this: 


static PyObject *py_print_chars(PyObject *self, PyObject *args) { 
char *s; 


if (!PyArg_ParseTuple(args, “s”, &s)) { 
return NULL; 


} print_chars(s); Py_ RETURN_NONE; 


When used, this will automatically convert all strings to a NULL-terminated UTF-8 
encoding. For example: 


>>> print_chars('Hello World") 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars('Spicy Jalape\u@@f10') # Note: UTF-8 encoding 
53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> print_chars('Hello\x@@World' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: must be str without null characters, not str 
>>> print_chars(b'Hello World') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: must be str, not bytes 
>>> 


If for some reason, you are working directly with a PyObject * and can’t use PyArg_Par 
seTuple(), the following code samples show how you can check and extract a suitable char 
reference, from both a bytes and string object: 


* 


/* Some Python Object (obtained somehow) */ PyObject *obj; 
/* Conversion from bytes */ { 
char *s; s = PyBytes_AsString(o); if (!s) { 
return NULL; /* TypeError already raised */ 


} print_chars(s); 


/* Conversion to UTF-8 bytes from a string */ { 
PyObject *bytes; char *s; if (!PyUnicode_Check(obj)) { 
PyErr_SetString(PyExc_TypeError, “Expected string”); return NULL; 


} bytes = PyUnicode_AsUTF8String(obj); s = PyBytes_AsString(bytes); print_chars(s); 
Py _DECREF(bytes); 


Both of the preceding conversions guarantee NULL-terminated data, but they do not check 
for embedded NULL bytes elsewhere inside the string. Thus, that’s something that you 
would need to check yourself if it’s important. 


讨论 


If it all possible, you should try to avoid writing code that relies on NULL-terminated strings 
since Python has no such requirement. It is almost always better to handle strings using the 
combination of a pointer and a size if possible. Nevertheless, sometimes you have to work 
with legacy C code that presents no other option. Although it is easy to use, there is a 
hidden memory overhead associated with using the “s” format code to PyArg ParseTuple() 
that is easy to overlook. When you write code that uses this conversion, a UTF-8 string is 
created and permanently attached to the original string object. If the original string 
contains non-ASCII characters, this makes the size of the string increase until it is garbage 
collected. For example: 


>>> import sys 

>>> S = ‘Spicy Jalape\uĝððf1o' 

>>> sys.getsizeof(s) 

87 

>>> print_chars(s) # Passing string 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> sys.getsizeof(s) # Notice increased size 
103 

>>> 


If this growth in memory use is a concern, you should rewrite your C extension code to use 
the PyUnicode AsUTF8String() function like this: 


static PyObject *py_print_chars(PyObject *self, PyObject “args) { 
PyObject *o, “bytes; char *s; 


if (!PyArg_ParseTuple(args, “U”, &o)) { 
return NULL; 


} bytes = PyUnicode_AsUTF8String(o); s = PyBytes_AsString(bytes); print_chars(s); 
Py_DECREF(bytes); Py RETURN NONE; 


With this modification, a UTF-8 encoded string is created if needed, but then discarded 
after use. Here is the modified behavior: 


>>> import sys 

>>> S = 'Spicy Jalape\u@@Ffi1o' 

>>> sys.getsizeof(s) 

87 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> sys.getsizeof(s) 

87 

>>> 


If you are trying to pass NULL-terminated strings to functions wrapped via ctypes, be aware 
that ctypes only allows bytes to be passed and that it does not check for embedded NULL 
bytes. For example: 


>>> import ctypes 
>>> lib = ctypes.cdll.LoadLibrary("./libsample.so") 
>>> print_chars = lib.print_chars 
>>> print_chars.argtypes = (ctypes.c_char_p,) 
>>> print_chars(b'Hello World’) 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars(b'Hello\xe@e@World' ) 
48 65 6c 6c 6f 
>>> print_chars('Hello World’) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ctypes.ArgumentError: argument 1: <class 'TypeError'>: wrong type 
>>> 


If you want to pass a string instead of bytes, you need to perform a manual UTF-8 encoding 
first. For example: 


>>> print_chars('Hello World'.encode('utf-8')) 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> 


For other extension tools (e.g., Swig, Cython), careful study is probably in order should you 
decide to use them to pass strings to C code. 


15.14 传递 Unicode 字 符 串 给 C 函 数 库 
问题 


You are writing an extension module that needs to pass a Python string to a C library 
function that may or may not know howto properly handle Unicode. 


解决 方案 


There are many issues to be concerned with here, but the main one is that existing C 
libraries won’t understand Python’s native representation of Unicode. Therefore, your 
challenge is to convert the Python string into a form that can be more easily understood by 
C libraries. For the purposes of illustration, here are two C functions that operate on string 
data and output it for the purposes of debugging and experimentation. One uses bytes 

pro - vided in the form char *, int, whereas the other uses wide characters in the form 
wchar_t *, int: 


void print_chars(char *s, int len) { 
intn = 0; 


while (n < len) { 
printf(“%2x ”, (unsigned char) s[n]); n++; 


} printf(“n”); 


void print_wchars(wchar_t *s, int len) { 
int n = 0; while (n < len) { 


printf(“%x ”, s[n]); n++; 


} printf(“n”); 


For the byte-oriented function print_chars(), you need to convert Python strings into a 
suitable byte encoding such as UTF-8. Here is a sample extension function that does this: 


static PyObject *py_print_chars(PyObject *self, PyObject *args) { 
char *s; Py_ssize_t len; 


if (!PyArg_ParseTuple(args, “s#”, &s, &len)) { 
return NULL; 


} print_chars(s, len); Py RETURN_NONE; 


For library functions that work with the machine native wchar_t type, you can write 
extension code such as this: 


static PyObject *py_print_wchars(PyObject *self, PyObject *args) { 
wchar_t *s; Py_ssize_t len; 


if (!PyArg_ParseTuple(args, “u#”, &s, &len)) { 
return NULL; 


} print_wchars(s,len); Py RETURN_NONE; 


Here is an interactive session that illustrates how these functions work: 


>>> S = 'Spicy Jalape\uĝððf1o' 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> print_wchars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 f1 6f 
>>> 


Carefully observe how the byte-oriented function print_chars() is receiving UTF-8 encoded 
data, whereas print_wchars() is receiving the Unicode code point values. 


讨论 


Before considering this recipe, you should first study the nature of the C library that you’re 
accessing. For many C libraries, it might make more sense to pass bytes instead of a string. 
To do that, use this conversion code instead: 


static PyObject *py_print_chars(PyObject *self, PyObject “args) { 
char *s; Py_ssize_t len; 


/* accepts bytes, bytearray, or other byte-like object */ if (!PyArg_ParseTuple(args, “y#”, 
&s, &len)) { 


return NULL; 


} print_chars(s, len); Py RETURN_NONE; 


If you decide that you still want to pass strings, you need to know that Python 3 uses an 
adaptable string representation that is not entirely straightforward to map directly to C 
libraries using the standard types char * or wchar_t * See PEP 393 for details. Thus, to 
present string data to C, some kind of conversion is almost always necessary. The s# and u# 
format codes to PyArg_ParseTuple() safely perform such conversions. One potential 
downside is that such conversions cause the size of the original string object to 
permanently increase. Whenever a conversion is made, a copy of the converted data is kept 
and attached to the original string object so that it can be reused later. You can observe this 
effect: 


>>> import sys 

>>> S = 'Spicy Jalape\u@@Ffi1o' 

>>> sys.getsizeof(s) 

87 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> sys.getsizeof(s) 

103 

>>> print_wchars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 f1 6f 
>>> sys.getsizeof(s) 

163 

>>> 


For small amounts of string data, this might not matter, but if you’re doing large amounts of 
text processing in extensions, you may want to avoid the overhead. Here is an alternative 
implementation of the first extension function that avoids these memory inefficiencies: 


static PyObject *py_print_chars(PyObject *self, PyObject *args) { 
PyObject *obj, “bytes; char *s; Py_ssize_t len; 
if (!PyArg_ParseTuple(args, “U”, &obj)) { 
return NULL; 


} bytes = PyUnicode_AsUTF8String(obj); PyBytes_AsStringAndSize(bytes, &s, &len); 
print_chars(s, len); Py. DECREF(bytes); Py RETURN_NONE; 


Avoiding memory overhead for wchar_t handling is much more tricky. Internally, Python 
stores strings using the most efficient representation possible. For example, strings 
containing nothing but ASCII are stored as arrays of bytes, whereas strings con - taining 
characters in the range U+0000 to U+FFFF use a two-byte representation. Since there isn’t 
a single representation of the data, you can’t just cast the internal array to wchar_t * and 
hope that it works. Instead, a wchar_t array has to be created and text copied into it. The 
“u#’ format code to PyArg_ParseTuple() does this for you at the cost of efficiency (it 
attaches the resulting copy to the string object). If you want to avoid this long-term 
memory overhead, your only real choice is to copy the Unicode data into a temporary array, 
pass it to the C library function, and then deallocate the array. Here is one possible 
implementation: 


static PyObject *py_print_wchars(PyObject *self, PyObject *args) { 
PyObject *obj; wchar_t *s; Py_ssize_t len; 
if (!:PyArg ParseTuple(args, “U”, &obj)) { 
return NULL; 
} if ((s = PyYUnicode_AsWideCharString(obj, &len)) == NULL) { 


return NULL; 


} print_wchars(s, len); PyYMem_Free(s); Py RETURN_NONE; 


In this implementation, PyYUnicode_AsWideCharString() creates a temporary buffer of 
wchar_t characters and copies data into it. That buffer is passed to C and then released 
afterward. As of this writing, there seems to be a possible bug related to this behavior, as 
described at the Python issues page. 


If, for some reason you know that the C library takes the data in a different byte encoding 
than UTF-8, you can force Python to perform an appropriate conversion using exten - sion 
code such as the following: 


static PyObject *py_print_chars(PyObject *self, PyObject *args) { 


no 


char *s = 0; int len; if (!PyArg_ParseTuple(args, “es#”, “encoding-name’”, &s, &len)) { 


return NULL; 


} print_chars(s, len); PYMem_Free(s); Py. RETURN_NONE; 


Last, but not least, if you want to work directly with the characters in a Unicode string, here 
is an example that illustrates low-level access: 


static PyObject *py_print_wchars(PyObject *self, PyObject *args) { 
PyObject *obj; int n, len; int kind; void *data; 
if (‘:PyArg ParseTuple(args, “U”, &obj)) { 
return NULL; 
} if (PyUnicode_ READY (obj) < 0) { 


return NULL; 


} 


len = PyUnicode_GET_LENGTH(obj); kind = PyUnicode_KIND(obj); data = 
PyUnicode_DATA(ob)); 


for (n =0;n < len; n++) { 
Py_UCS4 ch = PyUnicode_READ(kind, data, n); printf(“%x ”, ch); 


} printf(“n”); Py RETURN_NONE; 


In this code, the PYUnicode_KIND() and PyUnicode_DATA() macros are related to the 
variable-width storage of Unicode, as described in PEP 393. The kind variable encodes 
information about the underlying storage (8-bit, 16-bit, or 32-bit) and data points the 
buffer. In reality, you don’t need to do anything with these values as long as you pass them 
to the PYUnicode_READ() macro when extracting characters. A few final words: when 
passing Unicode strings from Python to C, you should probably try to make it as simple as 
possible. If given the choice between an encoding such as 


UTF-8 or wide characters, choose UTF-8. Support for UTF-8 seems to be much more 


common, less trouble-prone, and better supported by the interpreter. Finally, make sure 
your review the documentation on Unicode handling. 


15.15 C 字 符 串 转换 为 Python 字符 串 
问题 


You want to convert strings from C to Python bytes or a string object. 


For C strings represented as a pair char *, int, you must decide whether or not you want the 
string presented as araw byte string or as a Unicode string. Byte objects can be built using 
Py_BuildValue() as follows: 


char s; / Pointer to C string data / int len; / Length of data */ 


/* Make a bytes object */ PyObject *obj = Py_BuildValue(“y#’, s, len); 


If you want to create a Unicode string and you know that s points to data encoded as UTF- 
8, you can use the following: 


PyObject *obj = Py_BuildValue(“s#’, s, len); 


If s is encoded in some other known encoding, you can make a string using PyUni 
code _Decode() as follows: 


n u 


PyObject *obj = PyUnicode_Decode(s, len, “encoding”, “errors”); 


n u 


/* Examples /* obj = PyUnicode_Decode(s, len, “latin-1”, “strict”); obj = 


°» u 


PyUnicode_Decode(s, len, “ascii”, “ignore”); 


If you happen to have a wide string represented as a wchar_t *, len pair, there are a few 
options. First, you could use Py_BuildValue() as follows: 


wchar_t w; / Wide character string / int len; / Length */ 
PyObject *obj = Py_BuildValue(“u#’, w, len); 
Alternatively, you can use PyUnicode_FromWideChar(): 
PyObject *obj = PyUnicode_FromWideChar(w, len); 


For wide character strings, no interpretation is made of the character data—it is assumed to 
be raw Unicode code points which are directly converted to Python. 


讨论 


Conversion of strings from C to Python follow the same principles as I/O. Namely, the data 
from C must be explicitly decoded into a string according to some codec. Common 
encodings include ASCII, Latin-1, and UTF-8. If you’re not entirely sure of the encoding or 
the data is binary, you’re probably best off encoding the string as bytes instead. When 


making an object, Python always copies the string data you provide. If necessary, it’s up to 
you to release the C string afterward (if required). Also, for better reliability, you should try 
to create strings using both a pointer and a size rather than relying on NULL-terminated 
data. 


15.16 不 确定 编码 格式 的 C 字 符 串 

问题 

You are converting strings back and forth between C and Python, but the C encoding is of a 
dubious or unknown nature. For example, perhaps the C data is supposed to be UTF-8, but 


it’s not being strictly enforced. You would like to write code that can handle malformed data 
in a graceful way that doesn’t crash Python or destroy the string data in the process. 


解决 方案 
Here is some C data and a function that illustrates the nature of this problem: 


/* Some dubious string data (malformed UTF-8) */ const char *sdata = “Spicy 
Jalapexc3xb1oxae’; int slen = 16; 


/* Output character data */ void print_chars(char *s, int len) { 
int n = 0; while (n < len) { 
printf(“%2x ”, (unsigned char) s[n]); n++; 


} printf(“n”); 


In this code, the string sdata contains a mix of UTF-8 and malformed data. Neverthe - less, 
if a user calls print_chars(sdata, slen) in C, it works fine. Now suppose you want to convert 
the contents of sdata into a Python string. Further suppose you want to later pass that 
string to the print_chars() function through an extension. Here’s how to do it in a way that 
exactly preserves the original data even though there are encoding problems: 


/* Return the C string back to Python */ static PyObject *py_retstr(PyObject *self, PyObject 
*args) { 


if (!PyArg_ParseTuple(args, “”)) { 
return NULL; 


} return PyUnicode_Decode(sdata, slen, “utf-8”, “surrogateescape’”); 


/* Wrapper for the print_chars() function */ static PyObject *py_print_chars(PyObject *self, 
PyObject *args) { 


PyObject *obj, “bytes; char *s = 0; Py_ssize_t len; 


if (!:PyArg ParseTuple(args, “U”, &obj)) { 


return NULL; 
} 
if ((bytes = PyUnicode_AsEncodedString(obj, ’utf-8”,”surrogateescape”)) 
== NULL) { 
return NULL; 


} PyBytes_AsStringAndSize(bytes, &s, &len); print_chars(s, len); Py_DECREF(bytes); 
Py RETURN_NONE; 


If you try these functions from Python, here’s what happens: 


>>> s = retstr() 

>>> S 

"Spicy Jalapefno\udcae' 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f ae 
>>> 


Careful observation will reveal that the malformed string got encoded into a Python string 
without errors, and that when passed back into C, it turned back into a byte string that 
exactly encoded the same bytes as the original C string. 


This recipe addresses a subtle, but potentially annoying problem with string handling in 
extension modules. Namely, the fact that C strings in extensions might not follow the strict 
Unicode encoding/decoding rules that Python normally expects. Thus, it’s possible that 
some malformed C data would pass to Python. A good example might be C strings 
associated with low-level system calls such as filenames. For instance, what happens if a 
system call returns a broken string back to the interpreter that can’t be properly decoded. 


Normally, Unicode errors are often handled by specifying some sort of error policy, such as 
strict, ignore, replace, or something similar. However, a downside of these policies is that 
they irreparably destroy the original string content. For example, if the malformed data in 
the example was decoded using one of these polices, you would get results such as this: 


>>> raw = b'Spicy Jalape\xc3\xb1o0\xae' 
>>> raw.decode('utf-8', ignore’) 
"Spicy Jalapefo' 

>>> raw.decode('utf-8', ‘replace’ ) 
"Spicy Jalapeno?’ 

>>> 


The surrogateescape error handling policies takes all nondecodable bytes and turns them 
into the low-half of a surrogate pair (udcXX where XX is the raw byte value). For example: 


>>> raw.decode('utf-8', 'surrogateescape' ) 
"Spicy Jalapeno\udcae' 
>>> 


Isolated low surrogate characters such as udcae never appear in valid Unicode. Thus, this 
string is technically an illegal representation. In fact, if you ever try to pass it to functions 
that perform output, you'll get encoding errors: 


>>> s = raw.decode('utf-8', '‘surrogateescape' ) 
>>> print(s) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
UnicodeEncodeError: ‘utf-8' codec can't encode character '\udcae' 
in position 14: surrogates not allowed 
>>> 


However, the main point of allowing the surrogate escapes is to allow malformed strings to 
pass from C to Python and back into C without any data loss. When the string is encoded 
using surrogateescape again, the surrogate characters are turned back into their original 


bytes. For example: 


>>> S 

"Spicy Jalapefno\udcae' 

>>> s.encode('utf-8', 'surrogateescape’ ) 
b'Spicy Jalape\xc3\xb1o0\xae' 

>>> 


As a general rule, it’s probably best to avoid surrogate encoding whenever possible— your 
code will be much more reliable if it uses proper encodings. However, sometimes there are 
situations where you simply don’t have control over the data encoding and you aren't free 
to ignore or replace the bad data because other functions may need to use it. This recipe 
shows how to do it. 


As afinal note, many of Python’s system-oriented functions, especially those related to 
filenames, environment variables, and command-line options, use surrogate encoding. For 
example, if you use a function such as os.listdir() on a directory containing a undecodable 
filename, it will be returned as a string with surrogate escapes. See Recipe 5.15 for a related 
recipe. PEP 383 has more information about the problem addressed by this recipe and 
surro gateescape error handling. 


15.17 传递 文件 名 给 C 扩 展 
问题 


You need to pass filenames to C library functions, but need to make sure the filename has 
been encoded according to the system’s expected filename encoding. 


To write an extension function that receives a filename, use code such as this: 


static PyObject *py_get_filename(PyObject “self, PyObject *args) { 
PyObject *bytes; char *filename; Py_ssize_t len; if (!PyArg ParseTuple(args,"O&’”, 
PyUnicode_FSConverter, &bytes)) { 


return NULL; 


} PyBytes_AsStringAndSize(bytes, &filename, &len); /* Use filename */... 


/* Cleanup and return */ Py_DECREF (bytes) Py_RETURN_NONE; 


If you already have a PyObject * that you want to convert as a filename, use code such as 
the following: 


PyObject obj; /Object with the filename */ PyObject *bytes; char “filename; Py_ssize_t len; 


bytes = PyUnicode_EncodeFSDefault(obj); PyBytes_AsStringAndSize(bytes, &filename, 
&len); /* Use filename */... 


/* Cleanup */ Py_DECREF (bytes); 

If you need to return a filename back to Python, use the following code: 
/* Turn a filename into a Python object */ 

char filename; / Already set / int filename_len; / Already set */ 


PyObject *obj = PyUnicode DecodeFSDefaultAndSize(filename, filename_len); 


讨论 
Dealing with filenames in a portable way is a tricky problem that is best left to Python. If 
you use this recipe in your extension code, filenames will be handled in a manner that is 


consistent with filename handling in the rest of Python. This includes encoding/ decoding of 
bytes, dealing with bad characters, surrogate escapes, and other complica - tions. 


15.18 传递 已 打开 的 文件 给 C 扩 展 
问题 


You have an open file object in Python, but need to pass it to C extension code that will use 
the file. 


解决 方案 


To convert a file to an integer file descriptor, use PyFile_FromFd(), as shown: 


PyObject fobj; / File object (already obtained somehow) */ int fd = 
PyObject_AsFileDescriptor(fobj); if (fd < 0) { 


return NULL; 


The resulting file descriptor is obtained by calling the fileno() method on fobj. Thus, any 
object that exposes a descriptor in this manner should work (e.g., file, socket, etc.). Once you 
have the descriptor, it can be passed to various low-level C functions that expect to work 
with files. If you need to convert an integer file descriptor back into a Python object, use 
PyFile FromFd() as follows: 


int fd; /* Existing file descriptor (already open) */ PyObject *fobj = PyFile_FromFd(fd, 
“filename’”,’r’,- .NULL,NULL,NULL,1); 


The arguments to PyFile_FromFd() mirror those of the built-in open() function. NULL 
values simply indicate that the default settings for the encoding, errors, and newline 
arguments are being used. 


讨论 


If you are passing file objects from Python to C, there are a few tricky issues to be concerned 
about. First, Python performs its own I/O buffering through the io module. Prior to passing 
any kind of file descriptor to C, you should first flush the I/O buffers on the associated file 
objects. Otherwise, you could get data appearing out of order on the file stream. Second, 
you need to pay careful attention to file ownership and the responsibility of closing the file 
in particular. If a file descriptor is passed to C, but still used in Python, you need to make 
sure C doesn't accidentally close the file. Likewise, if a file descriptor is being turned into a 
Python file object, you need to be clear about who is responsible for closing it. The last 
argument to PyFile_FromFd() is set to 1 to indicate that Python should close the file. If you 
need to make a different kind of file object such as a FILE * object from the C standard I/O 
library using a function such as fdopen(), you'll need to be especially careful. Doing so would 
introduce two completely different MO buffering layers into the I/O stack (one from 
Python’s io module and one from C stdio). Operations such as fclose() in C could also 
inadvertently close the file for further use in Python. If given a choice, you should probably 
make extension code work with the low-level integer file descriptors as opposed to using a 
higher-level abstraction such as that provided by <stdio.h>. 








15.19 从 C 语 言 中 读 取 类 文件 对 象 


问题 


You want to write C extension code that consumes data from any Python file-like object 
(e.g., normal files, StringlO objects, etc.). 


解决 方案 

To consume data on afile-like object, you need to repeatedly invoke its read() method and 
take steps to properly decode the resulting data. Here is asample C extension function that 
merely consumes all of the data on a file-like object and dumps it to standard output so you 
can see it: 


#define CHUNK_SIZE 8192 


/* Consume a “file-like” object and write bytes to stdout */ static PyObject 
*py_consume file(PyObject *self, PyObject *args) { 


PyObject *obj; PyObject *read_meth; PyObject *result = NULL; PyObject *read_args; 


if (!PyArg_ParseTuple(args,”O”, &obj)) { 
return NULL; 


/* Get the read method of the passed object */ if ((read_meth = 
PyObject_GetAttrString(obj, “read”)) == NULL) { 


return NULL; 


/* Build the argument list to read() */ read_args = Py_BuildValue(“(i)”, CHUNK_SIZE); 
while (1) { 


PyObject *data; PyObject *enc_data; char *buf; Py_ssize t len; 
/* Call read() */ if ((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) { 


goto final; 


/* Check for EOF */ if (PySequence_Length(data) == 0) { 


Py_DECREF (data); break; 


/* Encode Unicode as Bytes for C */ if 
((enc_data=PyUnicode_AsEncodedString(data,’utf-8”,’strict”))==NULL) { 


Py_DECREF(data); goto final; 


/* Extract underlying buffer data */ PyBytes_AsStringAndSize(enc_data, &buf, 
&len); 


/* Write to stdout (replace with something more useful) */ write(1, buf, len); 
/* Cleanup */ Py_DECREF(enc_data); Py_DECREF(data); 
} result = Py_BuildValue(“”); 


final: 
/* Cleanup */ Py_DECREF(read_meth); Py_DECREF(read_args); return result; 


To test the code, try making a file-like object such as a StringlO instance and pass it in: 


>>> import io 

>>> f = io.StringI0O('Hello\nWorld\n' ) 
>>> import sample 

>>> sample.consume_file(f) 

Hello 

World 

>>> 


讨论 


Unlike a normal system file, a file-like object is not necessarily built around a low-level file 
descriptor. Thus, you can’t use normal C library functions to access it. Instead, you need to 
use Python’s C API to manipulate the file-like object much like you would in Python. In the 
solution, the read() method is extracted from the passed object. An argument list is built 
and then repeatedly passed to PyObject_Call() to invoke the method. To detect end-of-file 
(EOF), PySequence_Length() is used to see if the returned result has zero length. For all 1/0 
operations, you'll need to concern yourself with the underlying encoding and distinction 
between bytes and Unicode. This recipe shows how to read a file in text mode and decode 
the resulting text into a bytes encoding that can be used by C. If you want to read the file in 
binary mode, only minor changes will be made. For example: 


/* Call read() */ if ((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) { 


goto final; 


} 
/* Check for EOF */ if (PySequence_Length(data) == 0) { 


Py_DECREF (data); break; 


} if (!PyBytes_Check(data)) { 


Py _DECREF(data); PyErr_SetString(PyExc_lOError, “File must be in binary mode’); 
goto final; 


} 


/* Extract underlying buffer data */ PyBytes_AsStringAndSize(data, &buf, &len); ... 


The trickiest part of this recipe concerns proper memory management. When working with 
PyObject * variables, careful attention needs to be given to managing reference counts and 
cleaning up values when no longer needed. The various Py_DECREF() calls are doing this. 
The recipe is written in a general-purpose manner so that it can be adapted to other file 
operations, such as writing. For example, to write data, merely obtain the write() method of 
the file-like object, convert data into an appropriate Python object (bytes or Unicode), and 
invoke the method to have it written to the file. Finally, although file-like objects often 


provide other methods (e.g., readline(), read_into()), it is probably best to just stick with the 
basic read() and write() meth - ods for maximal portability. Keeping things as simple as 
possible is often a good policy for C extensions. 


15.20 处 理 C 语 言 中 的 可 迭代 对 象 
问题 


You want to write C extension code that consumes items from any iterable object such as a 
list, tuple, file, or generator. 


解决 方案 
Here is asample C extension function that shows how to consume the items on an iterable: 


static PyObject *py_consume_iterable(PyObject “self, PyObject *args) { 
PyObject *obj; PyObject *iter; PyObject *item; 


if (!PyArg_ParseTuple(args, “O”, &obj)) { 
return NULL; 


} if ((iter = PyYObject_Getlter(obj)) == NULL) { 


return NULL; 


} while ((item = Pylter_Next(iter)) != NULL) { 


/* Use item */ ... Py_DECREF(item); 


} 
Py_DECREF(iter); return Py_BuildValue(“”); 


讨论 


The code in this recipe mirrors similar code in Python. The PyObject_Getlter() call is the 
same as Calling iter() to get an iterator. The Pylter_Next() function invokes the next method 
on the iterator returning the next item or NULL if there are no more items. Make sure you’re 
careful with memory management—Py_DECREF() needs to be called on both the produced 
items and the iterator object itself to avoid leaking memory. 


15.21 诊断 分 析 代 码 错误 
问题 
The interpreter violently crashes with a segmentation fault, bus error, access violation, or 


other fatal error. You would like to get a Python traceback that shows you where your 
program was running at the point of failure. 


The faulthandler module can be used to help you solve this problem. Include the following 
code in your program: 


import faulthandler faulthandler.enable() 
Alternatively, run Python with the -Xfaulthandler option such as this: 
bash % python3 -Xfaulthandler program.py 
Last, but not least, you can set the PYTHONFAULTHANDLER environment variable. With 
faulthandler enabled, fatal errors in C extensions will result in a Python trace - back being 
printed on failures. For example: 
Fatal Python error: Segmentation fault 
Current thread 0x00007fff71106cc0: 
File “example.py”, line 6 in foo File “example.py”, line 10 in bar File “example.py”, line 
14 in spam File “example.py”, line 19 in <module> 


Segmentation fault 


Although this won't tell you where in the C code things went awry, at least it can tell you 
how it got there from Python. 


讨论 


The faulthandler will show you the stack traceback of the Python code executing at the time 
of failure. At the very least, this will show you the top-level extension function that was 
invoked. With the aid of pdb or other Python debugger, you can investigate the flow of the 


Python code leading to the error. faulthandler will not tell you anything about the failure 
from C. For that, you will need to use a traditional C debugger, such as gdb. However, the 
information from the faulthandler traceback may give you a better idea of where to direct 
your attention. It should be noted that certain kinds of errors in C may not be easily 
recoverable. For example, if aC extension trashes the stack or program heap, it may render 
faulthan dler inoperable and you'll simply get no output at all (other than a crash). 
Obviously, your mileage may vary. 


附录 A 


http://docs.python.org 





如 果 你 需要 深入 了 解 探 究 语 言 和 模块 的 细节 ， 那 么 不 必 说 ，Python 自 家 的 在 线 文 档 是 一 
个 卓越 的 资源 。 只 要 保证 你 查看 的 是 python 3 的 文档 而 不 是 以 前 的 老 版 本 


http://www.python.org/dev/peps 











如 果 你 向 理解 为 python 语 言 添 加 新 特性 的 动机 以 及 实现 的 细节 ， 那 么 PEPs (Python 
Enhancement Proposals 一 -Python 开发 编码 规范 ) 绝对 是 非常 宝贵 的 资源 。 尤 其 是 一 些 高 
级 语言 功能 更 是 如 此 。 在 写 这 本 书 的 时 候 ，PEPS 通 常 比 官方 文档 管用 。 





http://pyvideo.org 


这 里 有 来 自 最 近 的 PyCon 大 会 、 用 户 组 见面 会 等 的 大 量 视频 演讲 和 教程 素材 。 对 于 学 习 测 
流 的 python 开 发 是 非常 宝贵 的 资源 。 许 多 视频 中 都 会 有 Python 的 核心 开发 者 现身说法 ， 
讲解 Python 3 中 添加 的 的 新 特性 。 





http://code.activestate.com/recipes/langs/python 


长 期 以 来 ，ActiveState 的 Python 版 块 已 经 成 为 一 个 找到 数 以 千 计 的 针对 特定 编程 问题 的 
解决 方案。 到 写作 此 书 位 置 ， 已 经 包含 了 大 约 300 个 特定 于 Python3 的 秘籍 。 你 回 发 现 ， 
其 中 多 数 的 秘籍 要 么 对 本 书 覆 盖 的 话题 进行 了 扩展 ， 要 么 专 精 于 具体 的 任务 。 所 以 说 ， 它 
是 一 个 好 伴侣 。 














http://stackoverflow.com/questions/tagged/python 
Stack Overflow 木器 啊 有 超过 175，000 个 问题 呐 标 记 为 Python 相 关 〔 而 其 中 大 约 5000 个 


问题 是 针对 Python 3 的 ) 。 尽 管 问题 和 回答 的 质量 不 同 ， 但 是 任 仍然 能 发 现 很 多 好 优秀 的 
素材 。 


Python 学 习 书 籍 


下 面 这 些 书籍 提供 了 对 Python 编程 的 入 门 介绍 ， 且 重点 放 在 了 Python 3 上 。 


Beginning Python: From Novice to Professional, 2nd Edition, by Magnus Lie Het - land, 
Apress (2008). Programming in Python 3, 2nd Edition, by Mark Summerfield, Addison- 
Wesley (2010). 


e Learning Python， 第 四 版 ， 作 者 MarkLutz, O'Reilly & Associates 出 版 (2009). 

e The Quick Python Book， 作 者 Vernon Ceder, Manning 出 版 (2010)。 

e Python Programming for the Absolute Beginner， 第 三 版 ， 作 者 Michael Dawson, 
Course Technology PTR 出 版 (2010). 

。 Beginning Python: From Novice to Professional， 第 二 版 ， 作 者 Magnus Lie Het - 
land, Apress 出 版 (2008). 

e Programmingin Python 3， 第 二 版 ， 作 者 Mark Summerfield, Addison-Wesley 出 版 
(2010). 


高 级 书籍 
下 面 的 这 些 书籍 提供 了 更 多 高 级 的 范围 ， 也 包含 Python 3 方面 的 内 容 。 


。 Programming Python， 第 四 版 ,by Mark Lutz, O’Reilly & Associates 出 版 (2010). 

e Python Essential Reference， 第 四 版 ， 作 者 David Beazley, Addison-Wesley 出 版 
(2009). 

e Core Python Applications Programming， 第 三 版 ， 作 者 Wesley Chun, Prentice Hall 出 
版 (2012). 

e The Python Standard Library by Example, 作者 Doug Hellmann, Addison-Wesley 出 
版 (2011). 

e Python 3 Object Oriented Programming， 作 者 Dusty Phillips, Packt Publishing 出 版 
(2010). 

e Porting to Python 3， 作 者 Lennart Regebro, CreateSpace 出 版 (2011)， 
http://python3porting.com. 
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